このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240407となっている論文です。

PDF登録状況(公開日: 20240407)

TitleAuthorsAbstract論文公表日・翻訳日
# フィッシャースコアによる組織代表体積径のシミュレーションフリー決定

Simulation-Free Determination of Microstructure Representative Volume Element Size via Fisher Scores ( http://arxiv.org/abs/2404.15207v1 )

ライセンス: Link先を確認
Wei Liu, Satyajit Mojumder, Wing Kam Liu, Wei Chen, Daniel W. Apley, (参考訳) 代表体積要素(英: representative volume element、RVE)は、マイクロ構造全体の有効特性をシミュレートできる、合理的に小さな単位である。 RVEの有限要素(FE)シミュレーションは、大規模なサンプルとは対照的に、特にマルチスケールモデリングにおいて計算コストを削減している。 したがって、FEシミュレーションに先立ってRVEのサイズを決定するフレームワークを持つことが望ましい。 既存の手法では、サイズが大きくなるサンプルのFEシミュレーション特性が、多くのサンプルをシミュレートしなければならないという欠点とともに、重要な統計的バリエーションと収束するタイミングに基づいて、RVEサイズを選択する。 マイクログラフのみに基づいてRVEサイズを決定するシミュレーションフリーの代替案を提案する。 このアプローチは、入力マイクログラフの確率的性質を暗黙的に特徴づけるように訓練された機械学習モデルを利用する。 基礎となる根拠は、RVEサイズを、窓内のミクロ構造の確率的性質が、大きなマイクログラフを横切ると静止している最小の移動窓サイズとみなすことである。 この目的のために、我々は最近開発されたFisherスコアに基づくマイクロ構造非定常モニタリングフレームワークを適用した。 結果のRVEサイズはマイクログラフのみに基づいており、特定の特性のFEシミュレーションを含まないため、微細構造特性にのみ依存する興味のある特性に対してRVEを構成する。 単純かつ複雑なミクロ構造の数値実験を通じて、我々のアプローチを検証し、選択されたRVEサイズが、選択されたFEシミュレーション特性が収束するときに一致していることを示す。

A representative volume element (RVE) is a reasonably small unit of microstructure that can be simulated to obtain the same effective properties as the entire microstructure sample. Finite element (FE) simulation of RVEs, as opposed to much larger samples, saves computational expense, especially in multiscale modeling. Therefore, it is desirable to have a framework that determines RVE size prior to FE simulations. Existing methods select the RVE size based on when the FE-simulated properties of samples of increasing size converge with insignificant statistical variations, with the drawback that many samples must be simulated. We propose a simulation-free alternative that determines RVE size based only on a micrograph. The approach utilizes a machine learning model trained to implicitly characterize the stochastic nature of the input micrograph. The underlying rationale is to view RVE size as the smallest moving window size for which the stochastic nature of the microstructure within the window is stationary as the window moves across a large micrograph. For this purpose, we adapt a recently developed Fisher score-based framework for microstructure nonstationarity monitoring. Because the resulting RVE size is based solely on the micrograph and does not involve any FE simulation of specific properties, it constitutes an RVE for any property of interest that solely depends on the microstructure characteristics. Through numerical experiments of simple and complex microstructures, we validate our approach and show that our selected RVE sizes are consistent with when the chosen FE-simulated properties converge.
翻訳日:2024-04-28 11:06:36 公開日:2024-04-07
# ドア遷移誤差最小化によるTDOA位置決めシステムのアンカーペア選択

Anchor Pair Selection in TDOA Positioning Systems by Door Transition Error Minimization ( http://arxiv.org/abs/2404.15330v1 )

ライセンス: Link先を確認
Marcin Kolakowski, Jozef Modelski, (参考訳) 本稿では,UWB (ultra-wideband) TDOA-based (Time difference of Arrival) 屋内位置決めシステムに対する適応アンカーペア選択アルゴリズムを提案する。 この方法は、システム操作領域をゾーンに分割する。 最も好ましいアンカーペアは、これらのゾーンにつながるドアウェイにおける位置誤差を最小限に抑えることで選択される。 設定はゾーン内外への出入りのために別々に決定され、ユーザーの体をシャドーイングする。 そして、決定されたアンカーペアを使用して、TDOA値を計算し、拡張カルマンフィルタベースのアルゴリズムでアパートを動き回るユーザーをローカライズする。 この方法は、空きアパートで実験的に試験された。 その結果,アンカーペアの適応選択により,ユーザの局所化精度が向上することが示唆された。 平均軌道誤差は約0.32mである。

This paper presents an adaptive anchor pairs selection algorithm for UWB (ultra-wideband) TDOA-based (Time Difference of Arrival) indoor positioning systems. The method assumes dividing the system operation area into zones. The most favorable anchor pairs are selected by minimizing the positioning errors in doorways leading to these zones where possible users' locations are limited to small, narrow areas. The sets are determined separately for going in and out of the zone to take users' body shadowing into account. The determined anchor pairs are then used to calculate TDOA values and localize the user moving around the apartment with an Extended Kalman Filter based algorithm. The method was tested experimentally in a furnished apartment. The results have shown that the adaptive selection of the anchor pairs leads to an increase in the user's localization accuracy. The median trajectory error was about 0.32 m.
翻訳日:2024-04-28 10:56:51 公開日:2024-04-07
# 学習用変圧器モデルの高速化のためのマルチレベルフレームワーク

A Multi-Level Framework for Accelerating Training Transformer Models ( http://arxiv.org/abs/2404.07999v1 )

ライセンス: Link先を確認
Longwei Zou, Han Zhang, Yangdong Deng, (参考訳) Bert、GPT、ViTといった大規模ディープラーニングモデルの急速な成長は、NLP、CV、その他多くの領域のランドスケープに革命をもたらしている。 しかし、そのようなモデルの訓練は、エネルギーコストと二酸化炭素排出量を指数的に増加させる計算力に対する前例のない需要をもたらしている。 したがって、トレーニングコストを削減するため、効率的なトレーニングソリューションを開発することが重要である。 一般的なトレーニングプロセスから識別できる特徴マップと注意点の層間および層間類似点の重要観測によって、我々は、加速度を訓練するためのマルチレベルフレームワークを提案する。 具体的には、このフレームワークはCoalescing、De-Coalescing、Interpolationという3つの基本的なオペレータをベースとしている。 フレームワークはVサイクルのトレーニングプロセスで構成されており、モデルのサイズを段階的にダウン・アンド・アップ・スケールし、コレーシングとデ・コレーシングを通じて隣接するモデルのレベル間のパラメータを投影する。 鍵となる考え方は、高速収束のために訓練できるより小さなモデルと、訓練されたパラメータは、次のレベルの大きなネットワークに対して高い品質の中間解を提供するというものである。 補間演算子は、より優れた収束性能を得るためにデカレストによって引き起こされるニューロンの対称性を破るように設計されている。 本稿では,変換言語モデル (例えば Bert, GPT) とビジョンモデル (e g DeiT) を用いて,提案手法により,BERT/GPT-Baseモデルのトレーニングにおいて約20%,BERT-Largeモデルのトレーニングにおいて最大51.6%の計算コストを削減できることを実証した。

The fast growing capabilities of large-scale deep learning models, such as Bert, GPT and ViT, are revolutionizing the landscape of NLP, CV and many other domains. Training such models, however, poses an unprecedented demand for computing power, which incurs exponentially increasing energy cost and carbon dioxide emissions. It is thus critical to develop efficient training solutions to reduce the training costs. Motivated by a set of key observations of inter- and intra-layer similarities among feature maps and attentions that can be identified from typical training processes, we propose a multi-level framework for training acceleration. Specifically, the framework is based on three basic operators, Coalescing, De-coalescing and Interpolation, which can be orchestrated to build a multi-level training framework. The framework consists of a V-cycle training process, which progressively down- and up-scales the model size and projects the parameters between adjacent levels of models via coalescing and de-coalescing. The key idea is that a smaller model that can be trained for fast convergence and the trained parameters provides high-qualities intermediate solutions for the next level larger network. The interpolation operator is designed to break the symmetry of neurons incurred by de-coalescing for better convergence performance. Our experiments on transformer-based language models (e.g. Bert, GPT) as well as a vision model (e.g. DeiT) prove that the proposed framework reduces the computational cost by about 20% on training BERT/GPT-Base models and up to 51.6% on training the BERT-Large model while preserving the performance.
翻訳日:2024-04-21 20:14:16 公開日:2024-04-07
# PMG : 大規模言語モデルを用いたパーソナライズされたマルチモーダル生成

PMG : Personalized Multimodal Generation with Large Language Models ( http://arxiv.org/abs/2404.08677v1 )

ライセンス: Link先を確認
Xiaoteng Shen, Rui Zhang, Xiaoyan Zhao, Jieming Zhu, Xi Xiao, (参考訳) 大規模言語モデル(LLM)の出現は、テキスト理解と生成の能力に革命をもたらした。 マルチモーダル・ジェネレーションは、業界と学術の両方から大きな注目を集めているが、レコメンダ・システムのような重要な応用を持つパーソナライズ・ジェネレーションにはほとんど取り組んでいない。 本稿では,LLMを用いたパーソナライズされたマルチモーダル生成手法を提案する。 提案手法であるPMG(Personalized Multimodal Generation)は,まずユーザの行動(例えば,レコメンダシステムや仮想アシスタントとの会話など)を自然言語に変換し,LLMの理解とユーザの好み記述の抽出を容易にする。 このようなユーザの好みは、マルチモーダルLLMや拡散モデルなどのジェネレータに入力され、パーソナライズされたコンテンツを生成する。 ユーザの嗜好を包括的かつ正確に把握するために,LLMは明示的なキーワードと暗黙的な埋め込みの組み合わせを出力してユーザの嗜好を表現することを提案する。 次に、キーワードと埋め込みの組み合わせを、ジェネレータを条件付けるプロンプトとして使用する。 精度と嗜好スコアの重み付け和を最適化し、生成したコンテンツのバランスが良くなるようにする。 パーソナライゼーションのないベースライン法と比較して、PMGはLPIPSの精度を保ちながら、パーソナライズを最大8%改善する。

The emergence of large language models (LLMs) has revolutionized the capabilities of text comprehension and generation. Multi-modal generation attracts great attention from both the industry and academia, but there is little work on personalized generation, which has important applications such as recommender systems. This paper proposes the first method for personalized multimodal generation using LLMs, showcases its applications and validates its performance via an extensive experimental study on two datasets. The proposed method, Personalized Multimodal Generation (PMG for short) first converts user behaviors (e.g., clicks in recommender systems or conversations with a virtual assistant) into natural language to facilitate LLM understanding and extract user preference descriptions. Such user preferences are then fed into a generator, such as a multimodal LLM or diffusion model, to produce personalized content. To capture user preferences comprehensively and accurately, we propose to let the LLM output a combination of explicit keywords and implicit embeddings to represent user preferences. Then the combination of keywords and embeddings are used as prompts to condition the generator. We optimize a weighted sum of the accuracy and preference scores so that the generated content has a good balance between them. Compared to a baseline method without personalization, PMG has a significant improvement on personalization for up to 8% in terms of LPIPS while retaining the accuracy of generation.
翻訳日:2024-04-21 19:54:47 公開日:2024-04-07
# ファインチューニングされた大規模言語モデルは、既に強力なアウトオブディストリビューション・ディテクターだ

Your Finetuned Large Language Model is Already a Powerful Out-of-distribution Detector ( http://arxiv.org/abs/2404.08679v1 )

ライセンス: Link先を確認
Andi Zhang, Tim Z. Xiao, Weiyang Liu, Robert Bamler, Damon Wischik, (参考訳) 我々は,事前学習された大言語モデル(LLM)と,その微調整された変種との比率を,アウト・オブ・ディストリビューション(OOD)検出の基準として再検討する。 このような基準の背景にある直感は、事前訓練されたLLMが、大量のトレーニングデータのためにOODデータに関する事前知識を持ち、一度流通データで微調整されると、LLMはその違いを識別するのに十分な知識を持つということである。 LLMのパワーを活用して、初めて、その可能性比が有効なOOD検出器として機能できることが示される。 さらに,提案手法を用いて質問応答システム(QA)におけるOOD質問を検知し,一般質問に対する特殊なLLMの性能向上に有効であることを示す。 現代のニューラルネットワークフレームワークにおける損失関数によって容易に得られる可能性を考えると、実際にこのアプローチを実装することは容易である。 事前訓練されたLSMと各種微調整モデルの両方が利用可能であるため,OOD検出にさらなる訓練を必要とせずに,我々の提案した基準をうまく組み込むことが可能である。 提案手法の有効性を実証するために,OOD近傍,OOD近傍,スパム検出,QAシナリオなど複数の設定において総合的な評価を行う。

We revisit the likelihood ratio between a pretrained large language model (LLM) and its finetuned variant as a criterion for out-of-distribution (OOD) detection. The intuition behind such a criterion is that, the pretrained LLM has the prior knowledge about OOD data due to its large amount of training data, and once finetuned with the in-distribution data, the LLM has sufficient knowledge to distinguish their difference. Leveraging the power of LLMs, we show that, for the first time, the likelihood ratio can serve as an effective OOD detector. Moreover, we apply the proposed LLM-based likelihood ratio to detect OOD questions in question-answering (QA) systems, which can be used to improve the performance of specialized LLMs for general questions. Given that likelihood can be easily obtained by the loss functions within contemporary neural network frameworks, it is straightforward to implement this approach in practice. Since both the pretrained LLMs and its various finetuned models are available, our proposed criterion can be effortlessly incorporated for OOD detection without the need for further training. We conduct comprehensive evaluation across on multiple settings, including far OOD, near OOD, spam detection, and QA scenarios, to demonstrate the effectiveness of the method.
翻訳日:2024-04-21 19:54:47 公開日:2024-04-07
# AI脆弱性の定量化:複雑度、力学系、ゲーム理論の合成

Quantifying AI Vulnerabilities: A Synthesis of Complexity, Dynamical Systems, and Game Theory ( http://arxiv.org/abs/2404.10782v1 )

ライセンス: Link先を確認
B Kereopa-Yorke, (参考訳) 重要なドメインにまたがる人工知能(AI)システムの迅速な統合は、堅牢なセキュリティ評価フレームワークを必要とする。 システム複雑度指数(SCI)、Lyapunov Exponent for AI stability(LEAIS)、Nash Equilibrium Robustness(NER)の3つの指標を導入する新しいアプローチを提案する。 SCIはAIシステムの固有の複雑さを定量化し、LEAISはその安定性と摂動に対する感受性を捉え、NERは敵の操作に対する戦略的堅牢性を評価する。 比較分析を通じて、既存の手法よりもフレームワークの利点を実証する。 理論的・実践的な意味、潜在的な応用、限界、今後の研究の方向性について論じる。 我々の研究は、AIセキュリティ評価に対する総合的、理論的に基礎的なアプローチを提供することによって、安全で信頼性の高いAI技術の開発に貢献します。 AIが進歩を続けるにつれて、学際的なコラボレーションによるAIセキュリティの優先順位付けと推進は、社会の利益のためにその責任を負うことを保証するために不可欠である。

The rapid integration of Artificial Intelligence (AI) systems across critical domains necessitates robust security evaluation frameworks. We propose a novel approach that introduces three metrics: System Complexity Index (SCI), Lyapunov Exponent for AI Stability (LEAIS), and Nash Equilibrium Robustness (NER). SCI quantifies the inherent complexity of an AI system, LEAIS captures its stability and sensitivity to perturbations, and NER evaluates its strategic robustness against adversarial manipulation. Through comparative analysis, we demonstrate the advantages of our framework over existing techniques. We discuss the theoretical and practical implications, potential applications, limitations, and future research directions. Our work contributes to the development of secure and trustworthy AI technologies by providing a holistic, theoretically grounded approach to AI security evaluation. As AI continues to advance, prioritising and advancing AI security through interdisciplinary collaboration is crucial to ensure its responsible deployment for the benefit of society.
翻訳日:2024-04-21 19:45:03 公開日:2024-04-07
# 組み込みシステムのための資源効率の良いニューラルネットワーク

Resource-Efficient Neural Networks for Embedded Systems ( http://arxiv.org/abs/2001.03048v3 )

ライセンス: Link先を確認
Wolfgang Roth, Günther Schindler, Bernhard Klein, Robert Peharz, Sebastian Tschiatschek, Holger Fröning, Franz Pernkopf, Zoubin Ghahramani, (参考訳) 機械学習は伝統的にリソース集約的なタスクである一方で、組み込みシステム、自律ナビゲーション、モノのインターネット(Internet of Things)のビジョンは、リソース効率のよいアプローチへの関心を高めている。 これらのアプローチは、計算とエネルギーの観点から、パフォーマンスとリソース消費の間で慎重に選択されたトレードオフを目指している。 このようなアプローチの開発は、現在の機械学習研究における大きな課題のひとつであり、ほぼ無制限のコンピューティングリソースを持つ科学環境から日々のアプリケーションへの機械学習技術のスムーズな移行を保証するための鍵である。 本稿では,これらの現実的な要件を満たす機械学習技術の現状について概説する。 特に、過去10年で主流となった機械学習モデルであるディープニューラルネットワーク(DNN)に基づく、リソース効率の高い推論に注目します。 我々は、主に3つの非ミューチュアルなカテゴリーに分けられる膨大な文献の概要を概観する。 (i)量子化されたニューラルネットワーク (二)ネットワークプルーニング、及び (三)構造効率。 これらの技術は、トレーニング中や後処理として適用することができ、メモリフットプリント、推論速度、エネルギー効率の面で計算要求を減らすために広く利用されている。 また、DNN用組み込みハードウェアのさまざまな概念や、機械学習技術との互換性、エネルギーと遅延低減の可能性についても、簡単に論じる。 我々は、CPU、GPU、FPGAなどのリソース制約された組込みシステムに対して、圧縮技術(量子化、プルーニング)を用いて、よく知られたベンチマークデータセットに関する実験で、我々の議論を裏付ける。 得られた結果は,資源効率と予測品質の良好なトレードオフを見つけることの難しさを浮き彫りにした。

While machine learning is traditionally a resource intensive task, embedded systems, autonomous navigation, and the vision of the Internet of Things fuel the interest in resource-efficient approaches. These approaches aim for a carefully chosen trade-off between performance and resource consumption in terms of computation and energy. The development of such approaches is among the major challenges in current machine learning research and key to ensure a smooth transition of machine learning technology from a scientific environment with virtually unlimited computing resources into everyday's applications. In this article, we provide an overview of the current state of the art of machine learning techniques facilitating these real-world requirements. In particular, we focus on resource-efficient inference based on deep neural networks (DNNs), the predominant machine learning models of the past decade. We give a comprehensive overview of the vast literature that can be mainly split into three non-mutually exclusive categories: (i) quantized neural networks, (ii) network pruning, and (iii) structural efficiency. These techniques can be applied during training or as post-processing, and they are widely used to reduce the computational demands in terms of memory footprint, inference speed, and energy efficiency. We also briefly discuss different concepts of embedded hardware for DNNs and their compatibility with machine learning techniques as well as potential for energy and latency reduction. We substantiate our discussion with experiments on well-known benchmark data sets using compression techniques (quantization, pruning) for a set of resource-constrained embedded systems, such as CPUs, GPUs and FPGAs. The obtained results highlight the difficulty of finding good trade-offs between resource efficiency and prediction quality.
翻訳日:2024-04-12 19:46:03 公開日:2024-04-07
# LLMを用いたEDA合成誤差の説明

Explaining EDA synthesis errors with LLMs ( http://arxiv.org/abs/2404.07235v1 )

ライセンス: Link先を確認
Siyu Qiu, Benjamin Tan, Hammond Pearce, (参考訳) デジタルデザインで新しいエンジニアを訓練することは、特にこの領域で使用される複雑な電子設計自動化(EDA)ツールを教える場合、課題である。 学習者は典型的にはVerilogとVHDLのハードウェア記述言語をAltera(Intel)とXilinx(AMD)のField Programmable Gate Arrays(FPGA)に、それぞれ独自のクローズドソースツールチェーン(Quartus PrimeとVivado)を通じてデプロイする。 これらのツールは複雑で使いづらいですが、業界で使われているツールであるため、この分野における重要な第一歩です。 本研究では,この課題に対処するために,最近の人工知能の進歩をいかに活用するかを検討する。 具体的には,テキスト理解と質問応答能力を示すLarge Language Models (LLMs) を用いて,Quartus Prime と Vivado からのコンパイル時合成エラーメッセージの初心者フレンドリーな説明を生成することができるかを検討する。 本研究は,21種類のバグコードサンプル上に3つのOpenAI LLMを用いて,936個のエラーメッセージ説明を生成する。 その結果, 約71%のケースにおいて, LLMは初等学習者に適した正解と完全解法を与えることがわかった。

Training new engineers in digital design is a challenge, particularly when it comes to teaching the complex electronic design automation (EDA) tooling used in this domain. Learners will typically deploy designs in the Verilog and VHDL hardware description languages to Field Programmable Gate Arrays (FPGAs) from Altera (Intel) and Xilinx (AMD) via proprietary closed-source toolchains (Quartus Prime and Vivado, respectively). These tools are complex and difficult to use -- yet, as they are the tools used in industry, they are an essential first step in this space. In this work, we examine how recent advances in artificial intelligence may be leveraged to address aspects of this challenge. Specifically, we investigate if Large Language Models (LLMs), which have demonstrated text comprehension and question-answering capabilities, can be used to generate novice-friendly explanations of compile-time synthesis error messages from Quartus Prime and Vivado. To perform this study we generate 936 error message explanations using three OpenAI LLMs over 21 different buggy code samples. These are then graded for relevance and correctness, and we find that in approximately 71% of cases the LLMs give correct & complete explanations suitable for novice learners.
翻訳日:2024-04-12 17:46:48 公開日:2024-04-07
# DEFM:時空間情報変換による時系列予測のための遅延Embeddingに基づく予測マシン

DEFM: Delay E mbedding based Forecast Machine for Time Series Forecasting by Spatiotemporal Information Transformation ( http://arxiv.org/abs/2005.07842v2 )

ライセンス: Link先を確認
Hao Peng, Wei Wang, Pei Chen, Rui Liu, (参考訳) 複雑なシステムの正確な予測を行うことは、様々な応用において課題である。 このような問題を解く上で大きな困難は、時間的特性を持つ非線形時空間力学に関するものである。 テイケンズの遅延埋め込み理論は、高次元空間情報を時間情報に変換する方法を提供する。 本研究では,遅延埋め込み理論と深層学習技術を組み合わせることで,高次元観測に基づく自己教師型・マルチステップ・アヘッド方式で,対象変数の将来値を予測するための新しいフレームワーク,delay-Embedding-based Forecast Machine(DEFM)を提案する。 3モジュールの時空間アーキテクチャにより、DeFMはディープニューラルネットワークを活用し、時間的パラメータや付加的なノイズを伴っても、観測時系列から空間的および時間的に関連付けられた情報を効果的に抽出する。 DEFMは、時空間情報を目標変数の遅延埋め込みに変換することにより、将来の情報を正確に予測することができる。 DEFMの有効性と精度は、90次元(90D)結合ローレンツ系、ロレンツ96系、および不均一性を持つ倉本-シヴァシンスキー方程式の3つの時空間カオス系に応用することで実証される。 さらに、DEMの性能は、様々な分野にまたがる6つの実世界のデータセットで評価される。 5つの予測手法による比較実験は、DEMの優位性とロバスト性を示し、時間情報マイニングと予測におけるDEMの大きな可能性を示している。

Making accurate forecasts for a complex system is a challenge in various practical applications. The major difficulty in solving such a problem concerns nonlinear spatiotemporal dynamics with time-varying characteristics. Takens' delay embedding theory provides a way to transform high-dimensional spatial information into temporal information. In this work, by combining delay embedding theory and deep learning techniques, we propose a novel framework, Delay-Embedding-based Forecast Machine (DEFM), to predict the future values of a target variable in a self-supervised and multistep-ahead manner based on high-dimensional observations. With a three-module spatiotemporal architecture, the DEFM leverages deep neural networks to effectively extract both the spatially and temporally associated information from the observed time series even with time-varying parameters or additive noise. The DEFM can accurately predict future information by transforming spatiotemporal information to the delay embeddings of a target variable. The efficacy and precision of the DEFM are substantiated through applications in three spatiotemporally chaotic systems: a 90-dimensional (90D) coupled Lorenz system, the Lorenz 96 system, and the Kuramoto-Sivashinsky (KS) equation with inhomogeneity. Additionally, the performance of the DEFM is evaluated on six real-world datasets spanning various fields. Comparative experiments with five prediction methods illustrate the superiority and robustness of the DEFM and show the great potential of the DEFM in temporal information mining and forecasting
翻訳日:2024-04-10 21:05:06 公開日:2024-04-07
# CSA-Trans:AST用コード構造対応トランス

CSA-Trans: Code Structure Aware Transformer for AST ( http://arxiv.org/abs/2404.05767v1 )

ライセンス: Link先を確認
Saeyoon Oh, Shin Yoo, (参考訳) Transformerアーキテクチャをソースコードに適用する場合、ソースコードの抽象構文木(AST)からノード関係を抽出する方法に影響を与えるため、優れた自己アテンション機構を設計することが重要である。 本稿では、コード構造認識変換器(CSA-Trans)について述べる。これは、コード構造埋め込み器(CSE)を用いてASTの各ノードに対して特定のPEを生成する。 CSEは不整合注意を用いてノード位置エンコーディング(PE)を生成する。 自己注意能力をさらに拡張するために、確率ブロックモデル(SBM)の注意を取り入れる。 評価の結果,我々のPEは,他のグラフ関連PE技術よりもASTノード間の関係をよく捉えていることがわかった。 また,SBMアテンションがノード固有のアテンション係数をより多く生成できることを示す定量的,定性的な分析を行った。 CSA-Transは、PythonとJavaのコード要約タスクにおいて14のベースラインを上回り、AST-TransとSG-Transと比較して、Javaデータセットでは41.92%、メモリ効率は25.31%である。

When applying the Transformer architecture to source code, designing a good self-attention mechanism is critical as it affects how node relationship is extracted from the Abstract Syntax Trees (ASTs) of the source code. We present Code Structure Aware Transformer (CSA-Trans), which uses Code Structure Embedder (CSE) to generate specific PE for each node in AST. CSE generates node Positional Encoding (PE) using disentangled attention. To further extend the self-attention capability, we adopt Stochastic Block Model (SBM) attention. Our evaluation shows that our PE captures the relationships between AST nodes better than other graph-related PE techniques. We also show through quantitative and qualitative analysis that SBM attention is able to generate more node specific attention coefficients. We demonstrate that CSA-Trans outperforms 14 baselines in code summarization tasks for both Python and Java, while being 41.92% faster and 25.31% memory efficient in Java dataset compared to AST-Trans and SG-Trans respectively.
翻訳日:2024-04-10 18:58:15 公開日:2024-04-07
# フーリエニューラル演算子を用いた流線形海洋力学モデリング:多目的ハイパーパラメータとアーキテクチャ最適化アプローチ

Streamlining Ocean Dynamics Modeling with Fourier Neural Operators: A Multiobjective Hyperparameter and Architecture Optimization Approach ( http://arxiv.org/abs/2404.05768v1 )

ライセンス: Link先を確認
Yixuan Sun, Ololade Sowunmi, Romain Egele, Sri Hari Krishna Narayanan, Luke Van Roekel, Prasanna Balaprakash, (参考訳) 海洋プロセスを学ぶための効果的なディープラーニングモデルを訓練するには、様々なハイパーパラメータの慎重に選択する必要がある。 DeepHyperの高度な検索アルゴリズムを多目的最適化に活用し、海洋モデルに適したニューラルネットワークの開発を合理化します。 焦点は、複雑な海洋挙動をシミュレート可能なデータ駆動モデルであるフーリエニューラル演算子(FNO)の最適化である。 正しいモデルを選択し、ハイパーパラメータをチューニングするのは難しい作業です。 DeepHyperは、データ前処理、FNOアーキテクチャ関連のハイパーパラメータ、およびさまざまなモデルトレーニング戦略に関連するハイパーパラメータの効率的な探索を可能にする。 我々は,最も高性能なモデルに導かれる最適なハイパーパラメータの集合を得ることを目指している。 さらに,モデルトレーニングにおいて一般的に使用される平均2乗誤差に加えて,負の異常相関係数を付加損失項として適用してモデル性能を向上し,両項間の潜在的なトレードオフを検討することを提案する。 実験結果から, 単一タイムステッピング予測におけるモデル性能の最適セットは, 30日間の長期予測において, 自己回帰ロールアウトにおけるベースライン構成を大きく上回った。 DeepHyperを利用することで、海洋力学予測におけるFNOの利用を向上し、精度を向上したスケーラブルなソリューションを提供することを実証する。

Training an effective deep learning model to learn ocean processes involves careful choices of various hyperparameters. We leverage DeepHyper's advanced search algorithms for multiobjective optimization, streamlining the development of neural networks tailored for ocean modeling. The focus is on optimizing Fourier neural operators (FNOs), a data-driven model capable of simulating complex ocean behaviors. Selecting the correct model and tuning the hyperparameters are challenging tasks, requiring much effort to ensure model accuracy. DeepHyper allows efficient exploration of hyperparameters associated with data preprocessing, FNO architecture-related hyperparameters, and various model training strategies. We aim to obtain an optimal set of hyperparameters leading to the most performant model. Moreover, on top of the commonly used mean squared error for model training, we propose adopting the negative anomaly correlation coefficient as the additional loss term to improve model performance and investigate the potential trade-off between the two terms. The experimental results show that the optimal set of hyperparameters enhanced model performance in single timestepping forecasting and greatly exceeded the baseline configuration in the autoregressive rollout for long-horizon forecasting up to 30 days. Utilizing DeepHyper, we demonstrate an approach to enhance the use of FNOs in ocean dynamics forecasting, offering a scalable solution with improved precision.
翻訳日:2024-04-10 18:58:15 公開日:2024-04-07
# 動的品質多様性探索

Dynamic Quality-Diversity Search ( http://arxiv.org/abs/2404.05769v1 )

ライセンス: Link先を確認
Roberto Gallotta, Antonios Liapis, Georgios N. Yannakakis, (参考訳) 品質多様性(QD)パラダイムによる進化的探索は、様々な行動ニッチにおいて高いパフォーマンスのソリューションを発見することができ、進化ロボティクスのような複雑な現実のシナリオにかなりの可能性を秘めている。 しかし、ほとんどのQDメソッドは時間とともに固定される静的タスクにしか対応しない。 個々人の適合度が各評価においてわずかに変化するノイズ環境とは異なり、動的環境は未知の要因と不規則な間隔で外的要因が事前に未知の重症度で個人のパフォーマンスを変化させるタスクをシミュレートする。 動的環境の最適化に関する文献は広く知られているが、QD検索の文脈ではそのような環境は研究されていない。 本稿では,環境変化時に過去のソリューションのアーカイブを更新し続けることを目的とした,新規で汎用的な動的QD手法を提案する。 第二に、よく知られたベンチマークに容易に適用可能な動的環境の新たな特徴付けについて、静的タスクから動的環境へ移行するための小さな介入を行った。 我々の動的QD介入はMAP-ElitesとCMA-MEの2つの強力なQDアルゴリズムに適用され、異なる動的タスク上で動的変動をテストする。

Evolutionary search via the quality-diversity (QD) paradigm can discover highly performing solutions in different behavioural niches, showing considerable potential in complex real-world scenarios such as evolutionary robotics. Yet most QD methods only tackle static tasks that are fixed over time, which is rarely the case in the real world. Unlike noisy environments, where the fitness of an individual changes slightly at every evaluation, dynamic environments simulate tasks where external factors at unknown and irregular intervals alter the performance of the individual with a severity that is unknown a priori. Literature on optimisation in dynamic environments is extensive, yet such environments have not been explored in the context of QD search. This paper introduces a novel and generalisable Dynamic QD methodology that aims to keep the archive of past solutions updated in the case of environment changes. Secondly, we present a novel characterisation of dynamic environments that can be easily applied to well-known benchmarks, with minor interventions to move them from a static task to a dynamic one. Our Dynamic QD intervention is applied on MAP-Elites and CMA-ME, two powerful QD algorithms, and we test the dynamic variants on different dynamic tasks.
翻訳日:2024-04-10 18:58:15 公開日:2024-04-07
# X-VARS: マルチモーダル大言語モデルによるサッカー中継における説明可能性の導入

X-VARS: Introducing Explainability in Football Refereeing with Multi-Modal Large Language Model ( http://arxiv.org/abs/2404.06332v1 )

ライセンス: Link先を確認
Jan Held, Hani Itani, Anthony Cioppa, Silvio Giancola, Bernard Ghanem, Marc Van Droogenbroeck, (参考訳) 人工知能の急速な進歩は、自動意思決定の大幅な改善につながった。 しかしながら、モデルの性能向上は多くの場合、意思決定プロセスの説明可能性と透明性の犠牲になる。 本稿では,サッカー審判を試験場として用い,意思決定の複雑さと主観性を考慮し,大規模言語モデルの意思決定能力について検討する。 本稿では,サッカー映像のレフェリーの観点からの理解を目的としたマルチモーダルな大規模言語モデルである Explainable Video Assistant Referee System (X-VARS) を紹介する。 X-VARSは、ビデオ記述、質問応答、行動認識、ビデオコンテンツに基づく有意義な会話、およびフットボール審判のためのゲーム法に従って、多岐にわたるタスクを実行することができる。 我々は,新しいデータセットである SoccerNet-XFoul にX-VARS を検証した。 我々は,複雑なサッカークリップの解釈におけるX-VARSの印象的な機能について,実験と人間による研究を行った。 また,今後,X-VARSが人間のパフォーマンスに到達し,サッカー審判を支援する可能性を強調した。

The rapid advancement of artificial intelligence has led to significant improvements in automated decision-making. However, the increased performance of models often comes at the cost of explainability and transparency of their decision-making processes. In this paper, we investigate the capabilities of large language models to explain decisions, using football refereeing as a testing ground, given its decision complexity and subjectivity. We introduce the Explainable Video Assistant Referee System, X-VARS, a multi-modal large language model designed for understanding football videos from the point of view of a referee. X-VARS can perform a multitude of tasks, including video description, question answering, action recognition, and conducting meaningful conversations based on video content and in accordance with the Laws of the Game for football referees. We validate X-VARS on our novel dataset, SoccerNet-XFoul, which consists of more than 22k video-question-answer triplets annotated by over 70 experienced football referees. Our experiments and human study illustrate the impressive capabilities of X-VARS in interpreting complex football clips. Furthermore, we highlight the potential of X-VARS to reach human performance and support football referees in the future.
翻訳日:2024-04-10 14:30:51 公開日:2024-04-07
# Oracleの模倣: クラスインクリメンタルラーニングのための初期段階のデコレーションアプローチ

Mimicking the Oracle: An Initial Phase Decorrelation Approach for Class Incremental Learning ( http://arxiv.org/abs/2112.04731v5 )

ライセンス: Link先を確認
Yujun Shi, Kuangqi Zhou, Jian Liang, Zihang Jiang, Jiashi Feng, Philip Torr, Song Bai, Vincent Y. F. Tan, (参考訳) クラスインクリメンタルラーニング(CIL)は、各フェーズでサブセットのデータのみを提供するフェーズバイフェーズ方式で、マルチクラス分類器を学習することを目的としている。 これまでの作業は主に,最初のフェーズ以降のフェーズにおける忘れの軽減に重点を置いていた。 しかし、初期段階でのCILの改善も有望な方向であることがわかった。 具体的には、CILラーナーを初期段階で直接奨励し、全てのクラスで協調訓練されたモデルがCILの性能を大幅に向上させることができることを実験的に示す。 そこで本研究では,Na\を学習した初期相モデルとオラクルモデルとの差について検討した。 具体的には、これらの2つのモデルの大きな違いがトレーニングクラスの数であることから、そのような差がモデル表現にどのように影響するかを考察する。 トレーニングクラスが少ないと、各クラスのデータ表現は長く狭い領域に置かれ、より多くのトレーニングクラスでは、各クラスの表現がより均一に散らばっている。 この観察から着想を得たCwD (Class-wise Decorrelation) は,各クラスの表現をより均一に散らばるように効果的に正規化することで,全てのクラス(すなわちオラクルモデル)で共同で訓練されたモデルを模倣する。 私たちのCwDは実装が簡単で、既存のメソッドに簡単にプラグインできます。 様々なベンチマークデータセットに対する大規模な実験により、CwDは、既存の最先端メソッドのパフォーマンスを約1\%から3\%改善することを示した。 コードはリリースされる。

Class Incremental Learning (CIL) aims at learning a multi-class classifier in a phase-by-phase manner, in which only data of a subset of the classes are provided at each phase. Previous works mainly focus on mitigating forgetting in phases after the initial one. However, we find that improving CIL at its initial phase is also a promising direction. Specifically, we experimentally show that directly encouraging CIL Learner at the initial phase to output similar representations as the model jointly trained on all classes can greatly boost the CIL performance. Motivated by this, we study the difference between a na\"ively-trained initial-phase model and the oracle model. Specifically, since one major difference between these two models is the number of training classes, we investigate how such difference affects the model representations. We find that, with fewer training classes, the data representations of each class lie in a long and narrow region; with more training classes, the representations of each class scatter more uniformly. Inspired by this observation, we propose Class-wise Decorrelation (CwD) that effectively regularizes representations of each class to scatter more uniformly, thus mimicking the model jointly trained with all classes (i.e., the oracle model). Our CwD is simple to implement and easy to plug into existing methods. Extensive experiments on various benchmark datasets show that CwD consistently and significantly improves the performance of existing state-of-the-art methods by around 1\% to 3\%. Code will be released.
翻訳日:2024-04-10 06:04:02 公開日:2024-04-07
# 適応性と非定常性:オンライン凸最適化のための問題依存動的レグレット

Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization ( http://arxiv.org/abs/2112.14368v3 )

ライセンス: Link先を確認
Peng Zhao, Yu-Jie Zhang, Lijun Zhang, Zhi-Hua Zhou, (参考訳) 非定常環境におけるオンライン凸最適化について検討し、オンラインアルゴリズムが生み出す累積損失と実行可能なコンパレータシーケンスとの差として定義した性能指標として動的後悔を選択する。 T$を時間軸とし、$P_T$を環境の非定常性を本質的に反映するパス長とし、最先端の動的後悔は$\mathcal{O}(\sqrt{T(1+P_T)})$とする。 この境界は凸関数に最適であることが証明されているが、本論文では、特にオンライン関数が滑らかな場合に、いくつかの簡単な問題インスタンスの保証をさらに強化できることを実証する。 具体的には,損失関数の勾配の変動,コンパレータ列の累積損失,およびこれら2項の最小化など,スムーズさを生かし,動的後悔のT$への依存を問題依存量に置き換える新しいオンラインアルゴリズムを提案する。 これらの量は少なくとも$\mathcal{O}(T)$であるが、良質な環境ではずっと小さい。 したがって,本研究の結果は,既存の問題よりも厳密であり,かつ最悪の場合においても,同じ割合を保護できるため,本問題の本質的な難易度に適応する。 特に,提案アルゴリズムは1イテレーションに1つの勾配しか持たず,静的な後悔最小化法と同じ勾配クエリの複雑さを共有できる。 これを実現するために,協調的なオンラインアンサンブルフレームワークを導入する。 提案フレームワークは、非定常性を扱うために2層オンラインアンサンブルを使用し、楽観的なオンライン学習を用い、メタベース2層内で効果的な協調を可能にするために重要な修正項を導入し、適応性を得る。 このフレームワークは幅広い問題に有効であると考えています。

We investigate online convex optimization in non-stationary environments and choose dynamic regret as the performance measure, defined as the difference between cumulative loss incurred by the online algorithm and that of any feasible comparator sequence. Let $T$ be the time horizon and $P_T$ be the path length that essentially reflects the non-stationarity of environments, the state-of-the-art dynamic regret is $\mathcal{O}(\sqrt{T(1+P_T)})$. Although this bound is proved to be minimax optimal for convex functions, in this paper, we demonstrate that it is possible to further enhance the guarantee for some easy problem instances, particularly when online functions are smooth. Specifically, we introduce novel online algorithms that can exploit smoothness and replace the dependence on $T$ in dynamic regret with problem-dependent quantities: the variation in gradients of loss functions, the cumulative loss of the comparator sequence, and the minimum of these two terms. These quantities are at most $\mathcal{O}(T)$ while could be much smaller in benign environments. Therefore, our results are adaptive to the intrinsic difficulty of the problem, since the bounds are tighter than existing results for easy problems and meanwhile safeguard the same rate in the worst case. Notably, our proposed algorithms can achieve favorable dynamic regret with only one gradient per iteration, sharing the same gradient query complexity as the static regret minimization methods. To accomplish this, we introduce the collaborative online ensemble framework. The proposed framework employs a two-layer online ensemble to handle non-stationarity, and uses optimistic online learning and further introduces crucial correction terms to enable effective collaboration within the meta-base two layers, thereby attaining adaptivity. We believe the framework can be useful for broader problems.
翻訳日:2024-04-10 06:04:02 公開日:2024-04-07
# Sparse-group boosting -- Unbiased group and variable selection

Sparse-group boosting -- Unbiased group and variable selection ( http://arxiv.org/abs/2206.06344v2 )

ライセンス: Link先を確認
Fabian Obster, Christian Heumann, (参考訳) グループ化共変量体の存在下では,グループ内およびグループ間の間隔を強制できる強化のためのフレームワークを提案する。 自由度調整の度合いを同時に行うことで、スパース群ラッソと似た性質のモデルに昇降を施すことができる。 群内および群間間隔を混合パラメータで制御できることを示し, スパース群ラッソにおける混合パラメータとの類似性と相違について考察した。 シミュレーション,遺伝子データおよび農業データを用いて,この推定装置の有効性と予測的競争性を示す。 データとシミュレーションは、群化変数が存在する場合、スパースグループブースティングの使用は、偏りの少ない変数選択と、コンポーネントワイズブースティングよりも高い予測可能性に関連していることを示唆している。 さらに、自由度を通したコンポーネントワイドブースティングにおけるバイアスを低減する方法を提案する。

In the presence of grouped covariates, we propose a framework for boosting that allows to enforce sparsity within and between groups. By using component-wise and group-wise gradient boosting at the same time with adjusted degrees of freedom, a model with similar properties as the sparse group lasso can be fitted through boosting. We show that within-group and between-group sparsity can be controlled by a mixing parameter and discuss similarities and differences to the mixing parameter in the sparse group lasso. With simulations, gene data as well as agricultural data we show the effectiveness and predictive competitiveness of this estimator. The data and simulations suggest, that in the presence of grouped variables the use of sparse group boosting is associated with less biased variable selection and higher predictability compared to component-wise boosting. Additionally, we propose a way of reducing bias in component-wise boosting through the degrees of freedom.
翻訳日:2024-04-10 05:56:30 公開日:2024-04-07
# 軌道推定における機械学習:サーベイ

Machine Learning in Orbit Estimation: a Survey ( http://arxiv.org/abs/2207.08993v4 )

ライセンス: Link先を確認
Francisco Caldas, Cláudia Soares, (参考訳) 1950年代後半から、最初の人工衛星が打ち上げられると、居住スペースオブジェクトの数は着実に増加した。 約100万個の天体が現在地球を周回しており、10cm以上しか追跡されていないと推定されている。 ケスラー症候群と呼ばれる衝突の連鎖反応を避けるためには、デブリや衛星の軌道を正確に追跡し予測することが不可欠である。 現在の近似物理学に基づく手法では、7日間の予測で数キロの誤差があり、通常は1メートル未満の宇宙デブリを考えると不十分である。 この失敗は通常、軌道の開始時の宇宙物体の状態の不確実性、大気抵抗のような環境条件における誤差の予測、宇宙物体の質量や幾何学のような未知の特性による。 オペレータは、計測されていないオブジェクトの特性を導出し、機械学習のようなデータ駆動技術を活用することで、非保守的な力の効果を改善することで、軌道予測の精度を向上させることができる。 本調査では, 軌道決定, 軌道予測, 大気密度モデリングにおける機械学習の適用について概説する。

Since the late 1950s, when the first artificial satellite was launched, the number of Resident Space Objects has steadily increased. It is estimated that around one million objects larger than one cm are currently orbiting the Earth, with only thirty thousand larger than ten cm being tracked. To avert a chain reaction of collisions, known as Kessler Syndrome, it is essential to accurately track and predict debris and satellites' orbits. Current approximate physics-based methods have errors in the order of kilometers for seven-day predictions, which is insufficient when considering space debris, typically with less than one meter. This failure is usually due to uncertainty around the state of the space object at the beginning of the trajectory, forecasting errors in environmental conditions such as atmospheric drag, and unknown characteristics such as the mass or geometry of the space object. Operators can enhance Orbit Prediction accuracy by deriving unmeasured objects' characteristics and improving non-conservative forces' effects by leveraging data-driven techniques, such as Machine Learning. In this survey, we provide an overview of the work in applying Machine Learning for Orbit Determination, Orbit Prediction, and atmospheric density modeling.
翻訳日:2024-04-10 05:56:30 公開日:2024-04-07
# ADMMによる効果的なコミュニケーションによるプライバシー保護型垂直的フェデレーション学習の改善

Improving Privacy-Preserving Vertical Federated Learning by Efficient Communication with ADMM ( http://arxiv.org/abs/2207.10226v4 )

ライセンス: Link先を確認
Chulin Xie, Pin-Yu Chen, Qinbin Li, Arash Nourian, Ce Zhang, Bo Li, (参考訳) フェデレートラーニング(FL)は、分散リソース制約されたデバイスが、プライバシ目的でトレーニングデータをローカルに保持しながら、共有モデルを共同でトレーニングすることを可能にする。 それぞれのクライアントが部分的な特徴を収集できる垂直FL(VFL)は、最近、集中的な研究努力を惹きつけている。 私たちは、既存のVFLフレームワークが直面している主な課題を特定しました。サーバは、トレーニングステップ毎にクライアントとグラデーションを通信する必要があります。 本稿では,各クライアントの別々のコントリビューションを考慮に入れ,サーバやクライアントによって反復的に取り組まれるサブオブジェクトに対して,VFL最適化目標の効率的な分解を可能にする,マルチヘッド(VIM)を備えたVFLフレームワークを提案する。 特に、クライアントが通信前に複数のローカル更新を行えるようにし、通信コストを削減し、差分プライバシ(DP)下でのより良い性能を実現するための、ADMMベースの方法を提案する。 ユーザプライバシを保護するために,当社のフレームワークに対して,ユーザレベルのDPメカニズムを提供する。 さらに,VIMの副産物として,学習頭部の重みが局所的クライアントの重要性を反映していることが示されている。 広範に評価を行い、4つの垂直FLデータセットにおいて、VIMは最先端と比較して性能が著しく向上し、より高速な収束を実現していることを示す。 また、ローカルクライアントの重要性を明確に評価し、VIMがクライアントレベルの説明やクライアントの妄想といった機能を実現することを示す。 この作業が、効果的なVFLトレーニングと理解の新しい方法に光を当てることを願っています。

Federated learning (FL) enables distributed resource-constrained devices to jointly train shared models while keeping the training data local for privacy purposes. Vertical FL (VFL), which allows each client to collect partial features, has attracted intensive research efforts recently. We identified the main challenges that existing VFL frameworks are facing: the server needs to communicate gradients with the clients for each training step, incurring high communication cost that leads to rapid consumption of privacy budgets. To address these challenges, in this paper, we introduce a VFL framework with multiple heads (VIM), which takes the separate contribution of each client into account, and enables an efficient decomposition of the VFL optimization objective to sub-objectives that can be iteratively tackled by the server and the clients on their own. In particular, we propose an Alternating Direction Method of Multipliers (ADMM)-based method to solve our optimization problem, which allows clients to conduct multiple local updates before communication, and thus reduces the communication cost and leads to better performance under differential privacy (DP). We provide the user-level DP mechanism for our framework to protect user privacy. Moreover, we show that a byproduct of VIM is that the weights of learned heads reflect the importance of local clients. We conduct extensive evaluations and show that on four vertical FL datasets, VIM achieves significantly higher performance and faster convergence compared with the state-of-the-art. We also explicitly evaluate the importance of local clients and show that VIM enables functionalities such as client-level explanation and client denoising. We hope this work will shed light on a new way of effective VFL training and understanding.
翻訳日:2024-04-10 05:56:30 公開日:2024-04-07
# 不均一フェデレーション学習における次元崩壊の理解と緩和に向けて

Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning ( http://arxiv.org/abs/2210.00226v5 )

ライセンス: Link先を確認
Yujun Shi, Jian Liang, Wenqing Zhang, Vincent Y. F. Tan, Song Bai, (参考訳) フェデレートラーニングは、プライバシの考慮事項に関するデータを共有することなく、異なるクライアント間で協調的にモデルをトレーニングすることを目的としている。 しかし、この学習パラダイムの大きな課題の1つは、様々なクライアント間の局所的なデータ分布の相違に言及する {\em data heterogeneity} 問題である。 この問題に対処するために,データの不均一性がグローバル集約モデルの表現にどのように影響するかをまず検討する。 興味深いことに、ヘテロジニアスなデータは、周囲空間の代わりに低次元空間に表現が存在しがちな厳しい次元崩壊に苦しむ大域的なモデルをもたらす。 さらに、各クライアント上で局所的に訓練されたモデル上で同様の現象を観測し、グローバルモデル上の次元崩壊が局所モデルから受け継がれていることを推定する。 さらに,データの不均一性が局所モデルにおける次元的崩壊に与える影響について,勾配流のダイナミクスを理論的に解析した。 データの不均一性に起因するこの問題を解決するために,フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である {\sc FedDecorr} を提案する。 特に {\sc FedDecorr} は局所訓練中に正規化項を適用し、表現の異なる次元が非相関であるように促す。 実装フレンドリで計算効率のよい {\sc FedDecorr} は、標準ベンチマークデータセットのベースラインよりも一貫した改善をもたらす。 コード: https://github.com/bytedance/FedDecorr.com

Federated learning aims to train models collaboratively across different clients without the sharing of data for privacy considerations. However, one major challenge for this learning paradigm is the {\em data heterogeneity} problem, which refers to the discrepancies between the local data distributions among various clients. To tackle this problem, we first study how data heterogeneity affects the representations of the globally aggregated models. Interestingly, we find that heterogeneous data results in the global model suffering from severe {\em dimensional collapse}, in which representations tend to reside in a lower-dimensional space instead of the ambient space. Moreover, we observe a similar phenomenon on models locally trained on each client and deduce that the dimensional collapse on the global model is inherited from local models. In addition, we theoretically analyze the gradient flow dynamics to shed light on how data heterogeneity result in dimensional collapse for local models. To remedy this problem caused by the data heterogeneity, we propose {\sc FedDecorr}, a novel method that can effectively mitigate dimensional collapse in federated learning. Specifically, {\sc FedDecorr} applies a regularization term during local training that encourages different dimensions of representations to be uncorrelated. {\sc FedDecorr}, which is implementation-friendly and computationally-efficient, yields consistent improvements over baselines on standard benchmark datasets. Code: https://github.com/bytedance/FedDecorr.
翻訳日:2024-04-10 05:56:30 公開日:2024-04-07
# アンカーとしての最小賃金--人間とAIによる公平性の判断への影響

The Minimum Wage as an Anchor: Effects on Determinations of Fairness by Humans and AI ( http://arxiv.org/abs/2210.10585v3 )

ライセンス: Link先を確認
Dario G. Soatto, (参考訳) 人的対象と人工知能(AI)の双方による賃金の公平性の判断のアンカーとしての最低賃金の役割について検討する。 クラウドソーシングプラットフォームであるProlific.coに登録された被験者の調査とOpenAIの言語モデルであるGPT-3への問い合わせを通じて、回答者とGPT-3が、最低賃金が記載されていない制御に対して、現実的でも非現実的でも、数値的な最小賃金を含む追加情報によって、特定の仕事記述に公平であると見なされる賃金の数値応答が促されるかどうかを検証した。 最低賃金は、最低賃金に対する平均応答を最低賃金にシフトさせることで、公正性判断のアンカーとしての最低賃金の役割を確立することにより、公正と見なされる賃金に対する応答の分布に影響を与えることが分かりました。 しかし、非現実的に高い最低賃金である50ドルと100ドルの場合、応答の分配は2つの異なるモードに分けられる。 アンカーはAIボットに同様の効果を与えるが、AIボットが公正であると知覚する賃金は、人間の反応に比べて体系的な下方シフトを示す。 アンカーの非現実的な値については、ボットの応答は2つのモードに分けられるが、アンカーに付着する反応の割合は人間に比べて少ない。 人間と同様に、残りの反応はAIボットの制御グループに近いが、アンカーへの体系的なシフトを示す。 実験では,プロンプトの小さな摂動によるボット応答の変動について言及した。また,プロンプトにおける性別やレースの手がかりのより有意義な差異について,ボット応答の変動をテストし,応答の分布に異常を見いだした。

I study the role of minimum wage as an anchor for judgements of the fairness of wages by both human subjects and artificial intelligence (AI). Through surveys of human subjects enrolled in the crowdsourcing platform Prolific.co and queries submitted to the OpenAI's language model GPT-3, I test whether the numerical response for what wage is deemed fair for a particular job description changes when respondents and GPT-3 are prompted with additional information that includes a numerical minimum wage, whether realistic or unrealistic, relative to a control where no minimum wage is stated. I find that the minimum wage influences the distribution of responses for the wage considered fair by shifting the mean response toward the minimum wage, thus establishing the minimum wage's role as an anchor for judgements of fairness. However, for unrealistically high minimum wages, namely $50 and $100, the distribution of responses splits into two distinct modes, one that approximately follows the anchor and one that remains close to the control, albeit with an overall upward shift towards the anchor. The anchor exerts a similar effect on the AI bot; however, the wage that the AI bot perceives as fair exhibits a systematic downward shift compared to human subjects' responses. For unrealistic values of the anchor, the responses of the bot also split into two modes but with a smaller proportion of the responses adhering to the anchor compared to human subjects. As with human subjects, the remaining responses are close to the control group for the AI bot but also exhibit a systematic shift towards the anchor. During experimentation, I noted some variability in the bot responses depending on small perturbations of the prompt, so I also test variability in the bot's responses with respect to more meaningful differences in gender and race cues in the prompt, finding anomalies in the distribution of responses.
翻訳日:2024-04-10 05:56:30 公開日:2024-04-07
# StepNet: 孤立手話認識のための時空間部分認識ネットワーク

StepNet: Spatial-temporal Part-aware Network for Isolated Sign Language Recognition ( http://arxiv.org/abs/2212.12857v2 )

ライセンス: Link先を確認
Xiaolong Shen, Zhedong Zheng, Yi Yang, (参考訳) 手話認識(SLR)の目的は、難聴者や聴覚障害者がコミュニケーション障壁を克服するのを支援することである。 既存のアプローチの多くは、通常、Skeletonベースの方法とRGBベースの方法の2行に分けられるが、どちらの方法にも制限がある。 骨格に基づく手法は表情を考慮しないが、RGBベースの手法は通常細粒な手の構造を無視する。 両制約を克服するために,RGB の部分に基づく空間的時間的部分認識ネットワーク~(StepNet) という新しいフレームワークを提案する。 名前の通り、パートレベル空間モデリングとパートレベル時間モデリングの2つのモジュールで構成されている。 特に、部分レベル空間モデリングは、キーポイントレベルのアノテーションを使わずに、特徴空間における手や顔などの外見に基づくプロパティを自動的にキャプチャする。 一方、パートレベルのテンポラルモデリングは、長期のコンテキストを暗黙的に掘り下げて、時間とともに関連する属性をキャプチャします。 我々のStepNetは、時空間モジュールのおかげで、3つのSLRベンチマーク(WLASLは56.89%、NMF-CSLは77.2%、BOBSLは77.1%)で競合するTop-1 Per-instance精度を達成した。 また, 提案手法は光フロー入力と互換性があり, 融解した場合に優れた性能が得られる。 聞き難い人には、私たちの仕事が予備的なステップとして機能することを願っています。

The goal of sign language recognition (SLR) is to help those who are hard of hearing or deaf overcome the communication barrier. Most existing approaches can be typically divided into two lines, i.e., Skeleton-based and RGB-based methods, but both the two lines of methods have their limitations. Skeleton-based methods do not consider facial expressions, while RGB-based approaches usually ignore the fine-grained hand structure. To overcome both limitations, we propose a new framework called Spatial-temporal Part-aware network~(StepNet), based on RGB parts. As its name suggests, it is made up of two modules: Part-level Spatial Modeling and Part-level Temporal Modeling. Part-level Spatial Modeling, in particular, automatically captures the appearance-based properties, such as hands and faces, in the feature space without the use of any keypoint-level annotations. On the other hand, Part-level Temporal Modeling implicitly mines the long-short term context to capture the relevant attributes over time. Extensive experiments demonstrate that our StepNet, thanks to spatial-temporal modules, achieves competitive Top-1 Per-instance accuracy on three commonly-used SLR benchmarks, i.e., 56.89% on WLASL, 77.2% on NMFs-CSL, and 77.1% on BOBSL. Additionally, the proposed method is compatible with the optical flow input and can produce superior performance if fused. For those who are hard of hearing, we hope that our work can act as a preliminary step.
翻訳日:2024-04-10 05:46:40 公開日:2024-04-07
# PerAda: 一般化保証によるパラメータ効率の良いフェデレーション学習のパーソナライズ

PerAda: Parameter-Efficient Federated Learning Personalization with Generalization Guarantees ( http://arxiv.org/abs/2302.06637v2 )

ライセンス: Link先を確認
Chulin Xie, De-An Huang, Wenda Chu, Daguang Xu, Chaowei Xiao, Bo Li, Anima Anandkumar, (参考訳) パーソナライズド・フェデレーション・ラーニング(pFL)は、FLのクライアント間のデータの均一性に取り組むための有望なソリューションとして登場した。 しかし,既存の pFL 法では,(1) 通信・計算コストが高く,(2) ローカルデータに過度に適合する。 本稿では,パラメータ効率のよいpFLフレームワークであるPerAdaを提案する。 PerAdaは、事前訓練されたモデルのパワーを活用してコストを削減し、アダプタから少数の追加パラメータを更新し、通信する。 PerAdaは、各クライアントのパーソナライズされたアダプタをグローバルアダプタで正規化するのに対して、グローバルアダプタは知識蒸留を使用して、すべてのクライアントから一般化された情報を集約する。 理論的には、PerAdaが一般化を改善した理由を説明するために一般化境界を提供し、非凸条件下での定常点への収束を証明する。 経験的に、PerAdaは競争上のパーソナライズされたパフォーマンス(CheXpertでは+4.85%)を実証し、ベースラインと比較して自然領域と医療領域の異なるデータセットでの分配外一般化(CIFAR-10-Cでは+5.23%)の改善を可能にし、アダプタに基づいたモデル毎のパラメータの12.6%しか更新していない。 私たちのコードはhttps://github.com/NVlabs/PerAda.comから入手可能です。

Personalized Federated Learning (pFL) has emerged as a promising solution to tackle data heterogeneity across clients in FL. However, existing pFL methods either (1) introduce high communication and computation costs or (2) overfit to local data, which can be limited in scope, and are vulnerable to evolved test samples with natural shifts. In this paper, we propose PerAda, a parameter-efficient pFL framework that reduces communication and computational costs and exhibits superior generalization performance, especially under test-time distribution shifts. PerAda reduces the costs by leveraging the power of pretrained models and only updates and communicates a small number of additional parameters from adapters. PerAda has good generalization since it regularizes each client's personalized adapter with a global adapter, while the global adapter uses knowledge distillation to aggregate generalized information from all clients. Theoretically, we provide generalization bounds to explain why PerAda improves generalization, and we prove its convergence to stationary points under non-convex settings. Empirically, PerAda demonstrates competitive personalized performance (+4.85% on CheXpert) and enables better out-of-distribution generalization (+5.23% on CIFAR-10-C) on different datasets across natural and medical domains compared with baselines, while only updating 12.6% of parameters per model based on the adapter. Our code is available at https://github.com/NVlabs/PerAda.
翻訳日:2024-04-10 05:46:40 公開日:2024-04-07
# 事前制約付き類似性学習を用いた拡張現実感における弾発的ユーザ識別

Versatile User Identification in Extended Reality using Pretrained Similarity-Learning ( http://arxiv.org/abs/2302.07517v5 )

ライセンス: Link先を確認
Christian Rack, Konstantin Kobs, Tamara Fernando, Andreas Hotho, Marc Erich Latoschik, (参考訳) 機械学習における様々なアプローチは、eXtended Reality (XR)の動作データに基づくユーザ検証と識別に有用であることが証明されている。 しかし、それらの現実世界の応用は、拡張性と一般化能力の観点から、汎用性に関する重大な課題に直面している。 この記事では、高価なリトレーニングなしで新規ユーザーに拡張可能なソリューションを示し、異なるセッション、デバイス、ユーザタスクにわたってうまく一般化する。 この目的のために、類似性学習モデルを開発し、“Who Is Alyx?”データセットで事前トレーニングしました。 このデータセットは、VRゲーム「Half-Life: Alyx」をプレイしているユーザーの幅広いアクションを特徴としている。 これまでの研究とは対照的に、モデルの検証と最終的な評価には、専用のユーザセットを使用しました。 さらに、完全に異なるユーザ、タスク、および3つの異なるXRデバイスを特徴とする独立したデータセットを用いて、この評価を拡張した。 従来の分類学習ベースラインと比較して,本モデルは,特に限られた登録データを持つシナリオにおいて,優れた性能を示す。 事前トレーニングプロセスにより、多種多様なXRアプリケーションに容易にデプロイでき、高い汎用性を維持することができる。 将来的には、トレーニング済みのモーションベース識別モデルを3Dエンジンに簡単に統合することが可能になる。UnrealとUnity専用のプラグインは、モーション分析や機械学習の専門知識に欠ける人でも、これらの高度なモデルを簡単にかつ迅速に採用することを約束します。

Different approaches in machine learning have proven useful for user verification and identification based on motion data in eXtended Reality (XR). However, their real-world application still faces significant challenges concerning versatility, i.e., in terms of extensibility and generalization capability. This article presents a solution that is both extensible to new users without expensive retraining, and that generalizes well across different sessions, devices, and user tasks. To this end, we developed a similarity-learning model and pretrained it on the "Who Is Alyx?" dataset. This dataset features a wide array of actions from users playing the VR game "Half-Life: Alyx". In contrast to previous works, we used a dedicated set of users for model validation and final evaluation. Furthermore, we extended this evaluation using an independent dataset that features completely different users, tasks, and three different XR devices. In comparison with a traditional classification-learning baseline, our model shows superior performance, especially in scenarios with limited enrollment data. The pretraining process allows easy deployment in a diverse range of XR applications while maintaining high versatility. Looking ahead, our methodology can facilitate the easy integration of pretrained motion-based identification models into 3D engines: dedicated plugins for Unreal and Unity promise straightforward and quick adoption of these advanced models in the future, even for those lacking expertise in motion analysis and machine learning.
翻訳日:2024-04-10 05:46:40 公開日:2024-04-07
# ARS-DETR:Aspect Ratio-Sensitive Detection Transformer for Aerial Oriented Object Detection

ARS-DETR: Aspect Ratio-Sensitive Detection Transformer for Aerial Oriented Object Detection ( http://arxiv.org/abs/2303.04989v3 )

ライセンス: Link先を確認
Ying Zeng, Yushi Chen, Xue Yang, Qingyun Li, Junchi Yan, (参考訳) 既存のオブジェクト指向オブジェクト検出手法では、モデルの性能を測定するために計量AP$_{50}$が一般的である。 我々は、AP$_{50}$は、角度偏差の許容度が大きいため、オブジェクト指向物体の検出には本質的に不適であると主張する。 そこで我々は,モデルの性能を測定するために,高精度な計量 e g AP$_{75}$ を提唱する。 本稿では,ARS-DETR(Aspect Ratio Sensitive Oriented Object Detector with Transformer)を提案する。 具体的には、Aspect Ratio aware Circle Smooth Label (AR-CSL) と呼ばれる新しい角度分類法を提案し、より合理的な方法でアングルラベルを滑らかにし、以前の研究(例えばCSL)で導入されたハイパーパラメータを破棄する。 そして、回転変形可能な注目モジュールを、対応する角度でサンプリングポイントを回転させ、領域特徴とサンプリングポイントとの相違を取り除くように設計する。 また、アスペクト比に応じた動的重み係数を採用し、角度損失を算出する。 いくつかの挑戦的データセットに対する総合的な実験により,高精度オブジェクト指向物体検出タスクにおいて,本手法が競合性能を達成することを示す。

Existing oriented object detection methods commonly use metric AP$_{50}$ to measure the performance of the model. We argue that AP$_{50}$ is inherently unsuitable for oriented object detection due to its large tolerance in angle deviation. Therefore, we advocate using high-precision metric, e.g. AP$_{75}$, to measure the performance of models. In this paper, we propose an Aspect Ratio Sensitive Oriented Object Detector with Transformer, termed ARS-DETR, which exhibits a competitive performance in high-precision oriented object detection. Specifically, a new angle classification method, calling Aspect Ratio aware Circle Smooth Label (AR-CSL), is proposed to smooth the angle label in a more reasonable way and discard the hyperparameter that introduced by previous work (e.g. CSL). Then, a rotated deformable attention module is designed to rotate the sampling points with the corresponding angles and eliminate the misalignment between region features and sampling points. Moreover, a dynamic weight coefficient according to the aspect ratio is adopted to calculate the angle loss. Comprehensive experiments on several challenging datasets show that our method achieves competitive performance on the high-precision oriented object detection task.
翻訳日:2024-04-10 05:36:49 公開日:2024-04-07
# コンタクトセンターにおける沈黙の放棄--不確実なデータから顧客への愛着を推定する

Silent Abandonment in Contact Centers: Estimating Customer Patience from Uncertain Data ( http://arxiv.org/abs/2304.11754v2 )

ライセンス: Link先を確認
Antonio Castellanos, Galit B. Yom-Tov, Yair Goldberg, (参考訳) サービスを改善するために、企業は顧客に対して、主にテキストベースのコミュニケーションを行う連絡先センターを通じて、エージェントと対話する機会を提供する。 これは近年、企業とのコミュニケーションのお気に入りのチャンネルの1つになっている。 しかし, 接点センターは, 客が待ち行列を放棄したか, サービスを待つ意思があるかなど, 顧客体験に共通するプロキシの測定が, 情報の不確実性にさらされているため, 運用上の課題に直面している。 この研究は、このような不確実性の主な原因である顧客による沈黙的な放棄の影響に焦点を当てる。 これらの顧客は、問い合わせに対する回答を待っている間、システムを離れるが、対話のモバイルアプリを閉じるなど、そうする兆候はない。 その結果, システムが残されていること, 廃棄物処理の時間とキャパシティを, この事実が実現するまで意識していないことがわかった。 本稿では,放棄した顧客の30%-67%が無声でシステムを捨てており,そのような顧客の行動はシステム効率を5%~15%低下させることを示す。 そこで我々は,チャットとメッセージシステムという2つのタイプのコンタクトセンターにおいて,サイレント・アベンションの顧客を特定する手法を開発した。 まずテキスト解析とSVMモデルを用いて実際の放棄レベルを推定する。 次に、パラメトリック推定器を用いて予測最大化アルゴリズムを開発し、顧客の忍耐を正確に推定する。 本稿では,待ち行列モデルにおけるサイレントな放棄を考慮に入れることで,性能の重要度の推定精度が劇的に向上することを示す。 最後に,静かな放棄現象に対処する戦略を提案する。

In the quest to improve services, companies offer customers the opportunity to interact with agents through contact centers, where the communication is mainly text-based. This has become one of the favorite channels of communication with companies in recent years. However, contact centers face operational challenges, since the measurement of common proxies for customer experience, such as knowledge of whether customers have abandoned the queue and their willingness to wait for service (patience), are subject to information uncertainty. We focus this research on the impact of a main source of such uncertainty: silent abandonment by customers. These customers leave the system while waiting for a reply to their inquiry, but give no indication of doing so, such as closing the mobile app of the interaction. As a result, the system is unaware that they have left and waste agent time and capacity until this fact is realized. In this paper, we show that 30%-67% of the abandoning customers abandon the system silently, and that such customer behavior reduces system efficiency by 5%-15%. To do so, we develop methodologies to identify silent-abandonment customers in two types of contact centers: chat and messaging systems. We first use text analysis and an SVM model to estimate the actual abandonment level. We then use a parametric estimator and develop an expectation-maximization algorithm to estimate customer patience accurately, as customer patience is an important parameter for fitting queueing models to the data. We show how accounting for silent abandonment in a queueing model improves dramatically the estimation accuracy of key measures of performance. Finally, we suggest strategies to operationally cope with the phenomenon of silent abandonment.
翻訳日:2024-04-10 05:36:49 公開日:2024-04-07
# 用語分類における位置バイアスが言語モデルに及ぼす影響

Technical Report: Impact of Position Bias on Language Models in Token Classification ( http://arxiv.org/abs/2304.13567v3 )

ライセンス: Link先を確認
Mehdi Ben Amor, Michael Granitzer, Jelena Mitrović, (参考訳) 言語モデル(LM)は、自然言語処理(NLP)タスクにおける最先端のパフォーマンスを示している。 Named Entity Recognition (NER) やPart-of-Speech (POS) タグ付けのような下流タスクは、データ不均衡の問題に悩まされていることが知られている。 本稿では,エンコーダモデルの問題点,特にトークン分類タスクにおける正の例の位置バイアスについて考察する。 完全性については、評価にデコーダも含んでいます。 位置バイアスの影響を異なる位置埋め込み技術を用いて評価し、絶対位置埋め込み(APE)、相対位置埋め込み(RPE)、回転位置埋め込み(RoPE)によるBERTに着目した。 そこで我々は,トークン分類ベンチマークの微調整時に,位置バイアスがLMの性能に与える影響を詳細に評価する。 我々の研究には、NER用のCoNLL03とOntoNote5.0、POSタグ付けのためのBritish Tree Bank UD\_en、TweeBankが含まれる。 変圧器モデルにおける位置バイアスを解析するための評価手法を提案する。 平均降水量は, 3 %から 9 % の範囲で, このバイアスに悩まされる可能性が示唆された。 この効果を軽減するために,ランダム位置シフトとコンテキスト摂動の2つの手法を提案する。 その結果,CoNLL03,UD\_en,TweeBankのモデルの性能は,$\approx$2\%向上した。

Language Models (LMs) have shown state-of-the-art performance in Natural Language Processing (NLP) tasks. Downstream tasks such as Named Entity Recognition (NER) or Part-of-Speech (POS) tagging are known to suffer from data imbalance issues, particularly regarding the ratio of positive to negative examples and class disparities. This paper investigates an often-overlooked issue of encoder models, specifically the position bias of positive examples in token classification tasks. For completeness, we also include decoders in the evaluation. We evaluate the impact of position bias using different position embedding techniques, focusing on BERT with Absolute Position Embedding (APE), Relative Position Embedding (RPE), and Rotary Position Embedding (RoPE). Therefore, we conduct an in-depth evaluation of the impact of position bias on the performance of LMs when fine-tuned on token classification benchmarks. Our study includes CoNLL03 and OntoNote5.0 for NER, English Tree Bank UD\_en, and TweeBank for POS tagging. We propose an evaluation approach to investigate position bias in transformer models. We show that LMs can suffer from this bias with an average drop ranging from 3\% to 9\% in their performance. To mitigate this effect, we propose two methods: Random Position Shifting and Context Perturbation, that we apply on batches during the training process. The results show an improvement of $\approx$ 2\% in the performance of the model on CoNLL03, UD\_en, and TweeBank.
翻訳日:2024-04-10 05:36:49 公開日:2024-04-07
# AI-Architecture Libertyを目指す - メタバースにおけるディープラーニングによる仮想アーキテクチャの設計とコラボレーションに関する総合的な調査

Towards AI-Architecture Liberty: A Comprehensive Survey on Designing and Collaborating Virtual Architecture by Deep Learning in the Metaverse ( http://arxiv.org/abs/2305.00510v3 )

ライセンス: Link先を確認
Anqi Wang, Jiahua Dong, Lik-Hang Lee, Jiachuan Shen, Pan Hui, (参考訳) ディープラーニングを活用した3D形状生成技術は、コンピュータビジョンとアーキテクチャデザインコミュニティの両方から大きな関心を集め、将来のメタバースの内容を強化することを約束している。 しかし、バーチャルアーキテクチャ設計の研究は、人間とAIのコラボレーションとディープラーニング支援設計に関して、依然として限られている。 私たちはまず、データセット、マルチモーダリティ、デザイン直観、生成フレームワークといった課題に焦点を当て、原則、生成テクニック、そして現在の仮想アーキテクチャの文献を照らします。 調査では、アーキテクチャ研究、仮想環境、技術的アプローチに関する187の関連記事(2018年から2022年にかけて発行された記事の80.7%)をレビューした。 本研究では, 深層生成モデル(DGM)を用いた最新の3次元オブジェクト生成手法について検討し, 仮想アーキテクチャにおけるディープラーニング生成手法の4つの特徴を要約する。 本調査の分析では,エージェント,コミュニケーション,ユーザ配慮,統合ツールなど,4つの研究課題について概説し,深層学習支援アーキテクチャ生成における没入型システムとのユビキタスなインタラクションを実現する上で,3つの重要な課題を浮き彫りにした。 私たちの研究は、デザイナとディープラーニング技術間の理解の促進に寄与し、人間とAIのコラボレーションへのアクセスを拡大します。 我々は、このタイムリーな研究トピックに対処するための学際的な取り組みを提唱し、メタバースにおけるコンテンツ設計と生成を促進する。

3D shape generation techniques leveraging deep learning have garnered significant interest from both the computer vision and architectural design communities, promising to enrich the content of the future metaverse. However, research on virtual architectural design remains limited, particularly regarding human-AI collaboration and deep learning-assisted design. We first illuminate the principles, generation techniques, and current literature of virtual architecture, focusing on challenges such as datasets, multimodality, design intuition, and generative frameworks. In our survey, we reviewed 187 related articles (80.7\% of articles published between 2018 and 2022) covering architectural research, virtual environments, and technical approaches. This survey investigates the latest approaches to 3D object generation with deep generative models (DGMs) and summarizes four characteristics of deep-learning generation approaches for virtual architecture. According to our analysis of the survey, we expound on four research agendas, including agency, communication, user consideration, and integrating tools, and highlight three important enablers of ubiquitous interaction with immersive systems in deep learning-assisted architectural generation. Our work contributes to fostering understanding between designers and deep learning techniques, broadening access to human-AI collaboration. We advocate for interdisciplinary efforts to address this timely research topic, facilitating content designing and generation in the metaverse.
翻訳日:2024-04-10 05:27:02 公開日:2024-04-07
# 背景情報によるクラスアクティベーションの不確かさの低減

Reduction of Class Activation Uncertainty with Background Information ( http://arxiv.org/abs/2305.03238v4 )

ライセンス: Link先を確認
H M Dipu Kabir, (参考訳) マルチタスク学習は、一般化を改善したハイパフォーマンスニューラルネットワークをトレーニングするための一般的なアプローチである。 本稿では,計算能力に制限のある研究者や組織を支援するために,マルチタスク学習と比較して,計算能力の低下による一般化を実現するためのバックグラウンドクラスを提案する。 また,背景画像の選択手法を提案し,今後の改善について検討する。 提案手法をいくつかのデータセットに適用し,計算量を大幅に削減した一般化を実現する。 学習モデルのクラスアクティベーションマッピング(CAM)を通して,提案手法を用いて全体像を見る傾向を観察した。 STL-10、Caltech-101、CINIC-10データセット上での最先端(SOTA)性能が得られた。 スクリプトは次のGitHubリポジトリの'CAM'フォルダで利用できる。

Multitask learning is a popular approach to training high-performing neural networks with improved generalization. In this paper, we propose a background class to achieve improved generalization at a lower computation compared to multitask learning to help researchers and organizations with limited computation power. We also present a methodology for selecting background images and discuss potential future improvements. We apply our approach to several datasets and achieve improved generalization with much lower computation. Through the class activation mappings (CAMs) of the trained models, we observed the tendency towards looking at a bigger picture with the proposed model training methodology. Applying the vision transformer with the proposed background class, we receive state-of-the-art (SOTA) performance on STL-10, Caltech-101, and CINIC-10 datasets. Example scripts are available in the 'CAM' folder of the following GitHub Repository: github.com/dipuk0506/UQ
翻訳日:2024-04-10 05:27:02 公開日:2024-04-07
# AIによる調査:大規模言語モデルの活用とオピニオン予測のための調査

AI-Augmented Surveys: Leveraging Large Language Models and Surveys for Opinion Prediction ( http://arxiv.org/abs/2305.09620v3 )

ライセンス: Link先を確認
Junsol Kim, Byungkyu Lee, (参考訳) 人間のような反応を生み出す大きな言語モデル(LLM)は、社会科学における研究の実践に革命をもたらし始めている。 本研究では,調査質問の意味,個人的信念,時間的文脈を取り入れて意見予測を行うために,横断的な調査を繰り返すLLMを微調整する手法を開発した。 我々は、AIが強化した調査の新しい2つの応用を紹介した。ふりかえり(すなわち、年レベルの欠落の回答を予測する)と、無意識の意見予測(すなわち、完全に欠落の回答を予測する)である。 1972年から2021年までの一般社会調査における68,846人の意見のバイナライズされた3,110件のうち、Alpaca-7bに基づくモデルでは、レトロディクションが優れている(AUC = 0.86、世論予測は$\rho$ = 0.98)。 これらの顕著な予測能力により、同性婚への支持の高まりなど、公衆の態度が変わったときに、高い信頼と要点を欠如する傾向を埋めることができる。 一方, 微調整したAlpaca-7bモデルでは, 無意見予測(AUC = 0.73, $\rho$ = 0.67)が適度に成功している。 LLMを意見予測に用いる場合、個人の自律性やプライバシーに関する実践的制約や倫理的懸念について論じる。 本研究は,LLMと調査が相互に相互に能力を高めることを実証するものである。

Large language models (LLMs) that produce human-like responses have begun to revolutionize research practices in the social sciences. We develop a novel methodological framework that fine-tunes LLMs with repeated cross-sectional surveys to incorporate the meaning of survey questions, individual beliefs, and temporal contexts for opinion prediction. We introduce two new emerging applications of the AI-augmented survey: retrodiction (i.e., predict year-level missing responses) and unasked opinion prediction (i.e., predict entirely missing responses). Among 3,110 binarized opinions from 68,846 Americans in the General Social Survey from 1972 to 2021, our models based on Alpaca-7b excel in retrodiction (AUC = 0.86 for personal opinion prediction, $\rho$ = 0.98 for public opinion prediction). These remarkable prediction capabilities allow us to fill in missing trends with high confidence and pinpoint when public attitudes changed, such as the rising support for same-sex marriage. On the other hand, our fine-tuned Alpaca-7b models show modest success in unasked opinion prediction (AUC = 0.73, $\rho$ = 0.67). We discuss practical constraints and ethical concerns regarding individual autonomy and privacy when using LLMs for opinion prediction. Our study demonstrates that LLMs and surveys can mutually enhance each other's capabilities: LLMs can broaden survey potential, while surveys can improve the alignment of LLMs.
翻訳日:2024-04-10 05:27:02 公開日:2024-04-07
# SiCL: 衣服変化を伴う教師なし者の再同定のためのシルエット駆動型コントラスト学習

SiCL: Silhouette-Driven Contrastive Learning for Unsupervised Person Re-Identification with Clothes Change ( http://arxiv.org/abs/2305.13600v2 )

ライセンス: Link先を確認
Mingkun Li, Peng Xu, Chun-Guang Li, Jun Guo, (参考訳) 本稿では,服の着替えに伴う長期的個人識別の非教師化という,極めて困難な課題に対処する。 既存の教師なしの人物再識別法は、主に短期シナリオのために設計されており、通常はRGBの手がかりに依存しているので、衣服に依存しない特徴パターンを認識できない。 このボトルネックを解消するために,RGBキューとシルエット情報の両方をコントラスト学習フレームワークに統合することにより,クロスクロース不変性を学習する,シルエット駆動型コントラスト学習(SiCL)手法を提案する。 われわれの知る限り、これは教師なしの長期服着変更のための最初の調整済みフレームワークであり、6つのベンチマークデータセット上での優れたパフォーマンスである。 提案したSiCLを,すべての代表データセットにまたがる最先端の非教師なし人物リード手法と比較し,広範囲な実験を行った。 実験の結果,提案したSiCLは非教師なしのre-id法よりも有意に優れていた。

In this paper, we address a highly challenging yet critical task: unsupervised long-term person re-identification with clothes change. Existing unsupervised person re-id methods are mainly designed for short-term scenarios and usually rely on RGB cues so that fail to perceive feature patterns that are independent of the clothes. To crack this bottleneck, we propose a silhouette-driven contrastive learning (SiCL) method, which is designed to learn cross-clothes invariance by integrating both the RGB cues and the silhouette information within a contrastive learning framework. To our knowledge, this is the first tailor-made framework for unsupervised long-term clothes change \reid{}, with superior performance on six benchmark datasets. We conduct extensive experiments to evaluate our proposed SiCL compared to the state-of-the-art unsupervised person reid methods across all the representative datasets. Experimental results demonstrate that our proposed SiCL significantly outperforms other unsupervised re-id methods.
翻訳日:2024-04-10 05:27:02 公開日:2024-04-07
# UPNet:不確実性に基づく、ロバストな最初のブレークピッキングのための深層学習ネットワーク

UPNet: Uncertainty-based Picking Deep Learning Network for Robust First Break Picking ( http://arxiv.org/abs/2305.13799v2 )

ライセンス: Link先を確認
Hongtao Wang, Jiangshe Zhang, Xiaoli Wei, Li Long, Chunxia Zhang, (参考訳) 地震探査において、第1破砕(FB)ピッキングは地下速度モデルの決定において重要な側面であり、井戸の配置に大きな影響を及ぼす。 この処理を高速化するために、多くのディープニューラルネットワーク(DNN)ベースの自動選択法が提案されている。 セグメンテーションに基づくDNN法は分割写像を提供し、次にピックしきい値を用いて地図からFBを推定する。 しかし、DNNが選択した結果の不確実性を分析する必要がある。 したがって、フィールドデータセットに適用された自動選択法は、特に低信号対雑音比(SNR)の場合、ロバスト性を確保することができない。 本稿では、FBピックタスクに不確実性定量化を導入し、UPNetと呼ばれる新しい不確実性に基づくピッキング深層学習ネットワークを提案する。 UPNetは、ネットワーク出力の不確実性を推定するだけでなく、信頼性の低いピックをフィルタリングする。 多くの実験では、UPNetは決定論的DNNモデルよりも精度と頑健性を示し、フィールドサーベイでSOTA(State-of-the-Art)性能を達成する。 また,測定の不確実性が有意義であることを確認し,人的意思決定の基準を提供する。

In seismic exploration, first break (FB) picking is a crucial aspect in the determination of subsurface velocity models, significantly influencing the placement of wells. Many deep neural networks (DNNs)-based automatic picking methods have been proposed to accelerate this processing. Significantly, the segmentation-based DNN methods provide a segmentation map and then estimate FB from the map using a picking threshold. However, the uncertainty of the results picked by DNNs still needs to be analyzed. Thus, the automatic picking methods applied in field datasets can not ensure robustness, especially in the case of a low signal-to-noise ratio (SNR). In this paper, we introduce uncertainty quantification into the FB picking task and propose a novel uncertainty-based picking deep learning network called UPNet. UPNet not only estimates the uncertainty of network output but also can filter the pickings with low confidence. Many experiments evaluate that UPNet exhibits higher accuracy and robustness than the deterministic DNN-based model, achieving State-of-the-Art (SOTA) performance in field surveys. In addition, we verify that the measurement uncertainty is meaningful, which can provide a reference for human decision-making.
翻訳日:2024-04-10 05:27:02 公開日:2024-04-07
# Zero-TPrune: 事前学習トランスにおけるアテンショングラフの活用によるゼロショットトケンプルーニング

Zero-TPrune: Zero-Shot Token Pruning through Leveraging of the Attention Graph in Pre-Trained Transformers ( http://arxiv.org/abs/2305.17328v3 )

ライセンス: Link先を確認
Hongjie Wang, Bhishma Dedhia, Niraj K. Jha, (参考訳) エッジデバイスへのTransformerモデルのデプロイは、入力シーケンス内のトークン数と4倍にスケールする指数関数的に増大する推論コストによって、ますます困難になっている。 Token pruningは、様々なTransformerバックボーンへのデプロイが容易であるため、この問題に対処する新たなソリューションである。 しかし、ほとんどのトークンプルーニング法は計算コストのかかる微調整を必要とするため、多くのエッジ配置では望ましくない。 本研究では,トークンプルーニングにおけるトークンの重要性と類似性を両立する最初のゼロショット手法であるZero-TPruneを提案する。 事前学習したTransformerモデルのアテンショングラフを利用して,提案したWeighted Page Rank (WPR)アルゴリズムを用いてトークンの重要分布を生成する。 この分布は、効率的な類似性に基づくプルーニングのためのトークンパーティショニングをさらに導く。 微調整オーバーヘッドの除去により、Zero-TPruneは大きなモデルを無視可能な計算コストで実行し、異なるプルーニング構成を計算コストなしで切り替え、ハイパーパラメータチューニングを効率的に行うことができる。 視覚タスクにおけるZero-TPruneの性能を、様々な視覚変換器のバックボーンに適用し、ImageNet上でテストすることで評価する。 微調整なしでは、Zero-TPrune は DeiT-S の FLOPs コストを 34.7% 削減し、スループットを 45.3% 改善し、精度は 0.4% しか低下しない。 ファインチューニングを必要とする最先端のプルーニング法と比較すると、Zero-TPruneはプルーニング後の微調整の必要性をなくすだけでなく、0.1%の精度で行うことができる。 最先端の微調整不要プルーニング法と比較して、Zero-TPruneはFLOPsの予算で49%の精度の損失を削減している。 プロジェクトWebページ: https://jha-lab.github.io/zerotprune.com

Deployment of Transformer models on edge devices is becoming increasingly challenging due to the exponentially growing inference cost that scales quadratically with the number of tokens in the input sequence. Token pruning is an emerging solution to address this challenge due to its ease of deployment on various Transformer backbones. However, most token pruning methods require computationally expensive fine-tuning, which is undesirable in many edge deployment cases. In this work, we propose Zero-TPrune, the first zero-shot method that considers both the importance and similarity of tokens in performing token pruning. It leverages the attention graph of pre-trained Transformer models to produce an importance distribution for tokens via our proposed Weighted Page Rank (WPR) algorithm. This distribution further guides token partitioning for efficient similarity-based pruning. Due to the elimination of the fine-tuning overhead, Zero-TPrune can prune large models at negligible computational cost, switch between different pruning configurations at no computational cost, and perform hyperparameter tuning efficiently. We evaluate the performance of Zero-TPrune on vision tasks by applying it to various vision Transformer backbones and testing them on ImageNet. Without any fine-tuning, Zero-TPrune reduces the FLOPs cost of DeiT-S by 34.7% and improves its throughput by 45.3% with only 0.4% accuracy loss. Compared with state-of-the-art pruning methods that require fine-tuning, Zero-TPrune not only eliminates the need for fine-tuning after pruning but also does so with only 0.1% accuracy loss. Compared with state-of-the-art fine-tuning-free pruning methods, Zero-TPrune reduces accuracy loss by up to 49% with similar FLOPs budgets. Project webpage: https://jha-lab.github.io/zerotprune.
翻訳日:2024-04-10 05:17:18 公開日:2024-04-07
# ジェネリックおよび逆ロバスト最適化法におけるより高速なマージン最大化率

Faster Margin Maximization Rates for Generic and Adversarially Robust Optimization Methods ( http://arxiv.org/abs/2305.17544v2 )

ライセンス: Link先を確認
Guanghui Wang, Zihao Hu, Claudio Gentile, Vidya Muthukumar, Jacob Abernethy, (参考訳) 一階最適化法は、複数の大域的最適性を持つ未決定の訓練目標を最小化する際に、本質的に他よりも特定の解を優先する傾向がある。 この現象は暗黙バイアスと呼ばれ、最適化アルゴリズムの一般化能力を理解する上で重要な役割を果たしている。 近年の研究では、分離可能な二項分類タスクにおいて勾配差に基づく手法は、$\ell_2$-maximal margin classificationifierに対して暗黙のバイアスを示すことが明らかになっている。 同様に、ミラー降下や急勾配のような一般的な最適化手法は、代替測度によって定義される最大辺分類器に収束することが示されている。 勾配差に基づくアルゴリズムは高速な暗黙バイアス率を確実に達成するが、汎用最適化手法の文献における対応する速度は比較的遅い。 この制限に対処するために、ミラー降下と最も急勾配のアルゴリズムに対して、最先端の暗黙バイアス率を示す。 我々の主要な手法は、汎用最適化アルゴリズムを正規化された双線形ゲームを解決するオンライン最適化ダイナミックに変換することであり、様々な最適化手法の暗黙バイアスを解析するための統一的なフレームワークを提供する。 私たちの加速速度は、このゲームフレームワークにおけるオンライン学習アルゴリズムの残念な部分を活用することによって導き出されます。 次に, 対人訓練における暗黙のバイアスを解析することにより, この枠組みの柔軟性を示し, また, コンバージェンス率を大幅に改善した。

First-order optimization methods tend to inherently favor certain solutions over others when minimizing an underdetermined training objective that has multiple global optima. This phenomenon, known as implicit bias, plays a critical role in understanding the generalization capabilities of optimization algorithms. Recent research has revealed that in separable binary classification tasks gradient-descent-based methods exhibit an implicit bias for the $\ell_2$-maximal margin classifier. Similarly, generic optimization methods, such as mirror descent and steepest descent, have been shown to converge to maximal margin classifiers defined by alternative geometries. While gradient-descent-based algorithms provably achieve fast implicit bias rates, corresponding rates in the literature for generic optimization methods are relatively slow. To address this limitation, we present a series of state-of-the-art implicit bias rates for mirror descent and steepest descent algorithms. Our primary technique involves transforming a generic optimization algorithm into an online optimization dynamic that solves a regularized bilinear game, providing a unified framework for analyzing the implicit bias of various optimization methods. Our accelerated rates are derived by leveraging the regret bounds of online learning algorithms within this game framework. We then show the flexibility of this framework by analyzing the implicit bias in adversarial training, and again obtain significantly improved convergence rates.
翻訳日:2024-04-10 05:17:18 公開日:2024-04-07
# XGrad: 軽量予測でグラディエントベースの最適化を強化

XGrad: Boosting Gradient-Based Optimizers With Weight Prediction ( http://arxiv.org/abs/2305.18240v2 )

ライセンス: Link先を確認
Lei Guan, Dongsheng Li, Yanqi Shi, Jian Meng, (参考訳) 本稿では,ディープラーニング学習フレームワークXGradを提案する。このフレームワークは,ニューラルネットワーク(DNN)モデルをトレーニングする際の収束と一般化を促進するために,一般的な勾配に基づくオプティマイザに重み予測を導入している。 特に、各ミニバッチトレーニングの前に、使用したオプティマイザの更新ルールに従って将来の重みを予測し、前方通過と後方伝播の両方に適用する。 このように、トレーニング期間全体において、最適化者は、常に将来の重み付けをDNNパラメータの更新に利用し、グラデーションベースの最適化器は、ウェイト予測のない元の最適化器と比較して、より収束と一般化を達成する。 XGradは比較的単純で、勾配に基づくオプティマイザの収束とDNNモデルの精度を高めるのに非常に効果的である。 モーメントを持つSGD,Adam,AdamW,AdaBelief,AdaM3の5つの人気オプティマイザに関する実証的な結果から,提案手法の有効性が示された。 実験により,DNNモデルのトレーニングにおいて,XGradがベースラインオプティマイザよりも高いモデル精度が得られることを確認した。 XGradのコードは、https://github.com/guanleics/XGrad.comで入手できる。

In this paper, we propose a general deep learning training framework XGrad which introduces weight prediction into the popular gradient-based optimizers to boost their convergence and generalization when training the deep neural network (DNN) models. In particular, ahead of each mini-batch training, the future weights are predicted according to the update rule of the used optimizer and are then applied to both the forward pass and backward propagation. In this way, during the whole training period, the optimizer always utilizes the gradients w.r.t. the future weights to update the DNN parameters, making the gradient-based optimizer achieve better convergence and generalization compared to the original optimizer without weight prediction. XGrad is rather straightforward to implement yet pretty effective in boosting the convergence of gradient-based optimizers and the accuracy of DNN models. Empirical results concerning five popular optimizers including SGD with momentum, Adam, AdamW, AdaBelief, and AdaM3 demonstrate the effectiveness of our proposal. The experimental results validate that XGrad can attain higher model accuracy than the baseline optimizers when training the DNN models. The code of XGrad will be available at: https://github.com/guanleics/XGrad.
翻訳日:2024-04-10 05:17:18 公開日:2024-04-07
# 医療従事者としての研修 : ユニバーサル医療イメージセグメンテーションに向けてのコンテキスト・プライアラーニング

Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation ( http://arxiv.org/abs/2306.02416v3 )

ライセンス: Link先を確認
Yunhe Gao, Zhuowei Li, Di Liu, Mu Zhou, Shaoting Zhang, Dimitris N. Metaxas, (参考訳) 臨床画像ワークフローの主な焦点は、疾患の診断と管理であり、特定の臨床目的に強く結びついている医療画像データセットに繋がる。 このシナリオは、広範囲にわたる画像コホートから洞察を得ることなく、タスク固有のセグメンテーションモデルを開発するという一般的な実践につながった。 本研究は, 臨床対象, 身体領域, 画像モダリティの多様性と共通性を活用し, 医用画像理解基盤モデルを構築するためのパラダイムである, 普遍的な医用画像セグメンテーションへのシフトを提案する。 この目標に向けて,医用画像セグメンテーションにおけるデータの異質性やアノテーションの違いに対処する,コンテキスト優先学習手法であるHermesを開発した。 5つのモード(CT,PET,T1,T2,cine MRI)と複数の身体領域にまたがる11の多様なデータセット(2,438個の3D画像)の大規模なコレクションにおいて、1つのモデル内の複数のタスクに対処する従来のパラダイムよりも、普遍的なパラダイムのメリットを実証する。 タスク間のシナジーを活用することで、Hermesはすべてのテストデータセットで最先端のパフォーマンスを実現し、優れたモデルスケーラビリティを示している。 2つの追加データセットの結果から、下流タスクへの移行学習、インクリメンタル学習、一般化のためのHermesの強力なパフォーマンスが明らかになった。 ヘルメスの学歴は、放射線学において確立された解剖学と画像学の原則と一致する、タスクとモダリティの間の複雑な関係を反映する魅力的な特徴を示している。 コードは、https://github.com/yhygao/Universal-medical-image-segmentation.comで入手できる。

A major focus of clinical imaging workflow is disease diagnosis and management, leading to medical imaging datasets strongly tied to specific clinical objectives. This scenario has led to the prevailing practice of developing task-specific segmentation models, without gaining insights from widespread imaging cohorts. Inspired by the training program of medical radiology residents, we propose a shift towards universal medical image segmentation, a paradigm aiming to build medical image understanding foundation models by leveraging the diversity and commonality across clinical targets, body regions, and imaging modalities. Towards this goal, we develop Hermes, a novel context-prior learning approach to address the challenges of data heterogeneity and annotation differences in medical image segmentation. In a large collection of eleven diverse datasets (2,438 3D images) across five modalities (CT, PET, T1, T2 and cine MRI) and multiple body regions, we demonstrate the merit of the universal paradigm over the traditional paradigm on addressing multiple tasks within a single model. By exploiting the synergy across tasks, Hermes achieves state-of-the-art performance on all testing datasets and shows superior model scalability. Results on two additional datasets reveals Hermes' strong performance for transfer learning, incremental learning, and generalization to downstream tasks. Hermes's learned priors demonstrate an appealing trait to reflect the intricate relations among tasks and modalities, which aligns with the established anatomical and imaging principles in radiology. The code is available: https://github.com/yhygao/universal-medical-image-segmentation.
翻訳日:2024-04-10 05:17:18 公開日:2024-04-07
# CLIPのイメージテキストアライメントを拡張してイメージセグメンテーションの参照

Extending CLIP's Image-Text Alignment to Referring Image Segmentation ( http://arxiv.org/abs/2306.08498v2 )

ライセンス: Link先を確認
Seoyeon Kim, Minguk Kang, Dongwon Kim, Jaesik Park, Suha Kwak, (参考訳) Referring Image Segmentation (RIS)は、自然言語で記述されたインスタンスのセグメント化を目的とした、クロスモーダルなタスクである。 近年の手法では, 大規模事前学習型単調模型をバックボーンとして利用し, 共同推論のための融合技術も活用されている。 しかし、RISの本質的にのクロスモーダルな性質は、一過性のバックボーンの有効性についての疑問を提起する。 RISCLIPは,RISのためのCLIPのクロスモーダルな性質を効果的に活用する新しいフレームワークである。 CLIPのイメージテキスト共有埋め込み空間におけるリッチアライメントの知識を活用するため,CLIPのイメージとテキストの機能間のアライメントを観察する上で,この出発点を活かし,単一機能抽出を強化するシンプルだが強力なモジュールを導入します。 RISCLIPは3つの主要なRISベンチマークにおいて優れた結果を示し、CLIPベースの手法よりも優れており、CLIPのイメージテキストアライメントをRISに拡張する戦略の有効性を実証している。

Referring Image Segmentation (RIS) is a cross-modal task that aims to segment an instance described by a natural language expression. Recent methods leverage large-scale pretrained unimodal models as backbones along with fusion techniques for joint reasoning across modalities. However, the inherent cross-modal nature of RIS raises questions about the effectiveness of unimodal backbones. We propose RISCLIP, a novel framework that effectively leverages the cross-modal nature of CLIP for RIS. Observing CLIP's inherent alignment between image and text features, we capitalize on this starting point and introduce simple but strong modules that enhance unimodal feature extraction and leverage rich alignment knowledge in CLIP's image-text shared-embedding space. RISCLIP exhibits outstanding results on all three major RIS benchmarks and also outperforms previous CLIP-based methods, demonstrating the efficacy of our strategy in extending CLIP's image-text alignment to RIS.
翻訳日:2024-04-10 05:17:18 公開日:2024-04-07
# DoubleAdapt: ストックトレンド予測のためのインクリメンタルラーニングのためのメタラーニングアプローチ

DoubleAdapt: A Meta-learning Approach to Incremental Learning for Stock Trend Forecasting ( http://arxiv.org/abs/2306.09862v3 )

ライセンス: Link先を確認
Lifan Zhao, Shuming Kong, Yanyan Shen, (参考訳) 株価トレンド予測は、価格トレンドの正確な予測が不可欠である量的投資の基本的な課題である。 オンラインサービスとして、株価データは時間とともに継続的に届きます。 予測モデルを最新のデータで漸進的に更新することは実用的かつ効率的であり、将来の株式市場で繰り返される新たなパターンを明らかにしている可能性がある。 しかし、株価トレンド予測の漸進的な学習は、分配シフト(つまり概念の漂流)の難しさにより、まだ未解明のままである。 株式市場が動的に進化するにつれて、将来のデータの分布はインクリメンタルなデータと微妙に、あるいは著しく異なる可能性があるため、インクリメンタルな更新の有効性を妨げている。 この課題に対処するため、2つのアダプタを持つエンドツーエンドフレームワークであるDoubleAdaptを提案する。 私たちのキーとなる洞察は、ストックデータをローカルな定常分布に自動的に適応させ、利益を上げる更新を優先する方法を学ぶことです。 データ適応によって補うことで、緩和分布シフトの下でモデルパラメータを確実に適応させることができる。 我々は,各漸進的な学習タスクをメタ学習タスクとしてキャストし,最適なデータ適応とパラメータ初期化のためのアダプタを自動的に最適化する。 実世界のストックデータセットの実験では、DoubleAdaptは最先端の予測性能を達成し、かなりの効率を示している。

Stock trend forecasting is a fundamental task of quantitative investment where precise predictions of price trends are indispensable. As an online service, stock data continuously arrive over time. It is practical and efficient to incrementally update the forecast model with the latest data which may reveal some new patterns recurring in the future stock market. However, incremental learning for stock trend forecasting still remains under-explored due to the challenge of distribution shifts (a.k.a. concept drifts). With the stock market dynamically evolving, the distribution of future data can slightly or significantly differ from incremental data, hindering the effectiveness of incremental updates. To address this challenge, we propose DoubleAdapt, an end-to-end framework with two adapters, which can effectively adapt the data and the model to mitigate the effects of distribution shifts. Our key insight is to automatically learn how to adapt stock data into a locally stationary distribution in favor of profitable updates. Complemented by data adaptation, we can confidently adapt the model parameters under mitigated distribution shifts. We cast each incremental learning task as a meta-learning task and automatically optimize the adapters for desirable data adaptation and parameter initialization. Experiments on real-world stock datasets demonstrate that DoubleAdapt achieves state-of-the-art predictive performance and shows considerable efficiency.
翻訳日:2024-04-10 05:17:18 公開日:2024-04-07
# 世界のナラティブを暴露する―ロシアとウクライナの紛争に関するTwitterの複数言語によるニュースメディアのデータセット

Unveiling Global Narratives: A Multilingual Twitter Dataset of News Media on the Russo-Ukrainian Conflict ( http://arxiv.org/abs/2306.12886v2 )

ライセンス: Link先を確認
Sherzod Hakimov, Gullal S. Cheema, (参考訳) 進行中のロシアとウクライナの紛争は、世界中で激しいメディア報道の対象となっている。 この話題を取り巻く世界的物語を理解することは、多面的次元に関する洞察を得ることを目指す研究者にとって極めて重要である。 本稿では,ソーシャルメディア上でニュースやメディアが投稿したつぶやきを収集・処理することで,この話題に焦点を当てた新しいマルチメディアデータセットを提案する。 私たちは2022年2月から2023年5月までのツイートを収集し、60の言語で約150万のツイートとそれらの画像を取得しました。 データセットの各エントリには処理されたタグが添付され、エンティティ、スタンス、テキストまたは視覚的概念、感情の識別が可能になる。 このマルチメディアデータセットの利用可能性は、関係する著名な存在、どのようなスタンスをとるか、これらのスタンスはどこから来るのか、その出来事にまつわる異なるテキスト的、視覚的概念はどのように表現されるのか、といった様々な側面から、進行中の紛争を取り巻くグローバルな物語を調査することを目的とした研究者にとって貴重な資料となる。

The ongoing Russo-Ukrainian conflict has been a subject of intense media coverage worldwide. Understanding the global narrative surrounding this topic is crucial for researchers that aim to gain insights into its multifaceted dimensions. In this paper, we present a novel multimedia dataset that focuses on this topic by collecting and processing tweets posted by news or media companies on social media across the globe. We collected tweets from February 2022 to May 2023 to acquire approximately 1.5 million tweets in 60 different languages along with their images. Each entry in the dataset is accompanied by processed tags, allowing for the identification of entities, stances, textual or visual concepts, and sentiment. The availability of this multimedia dataset serves as a valuable resource for researchers aiming to investigate the global narrative surrounding the ongoing conflict from various aspects such as who are the prominent entities involved, what stances are taken, where do these stances originate from, how are the different textual and visual concepts related to the event portrayed.
翻訳日:2024-04-10 05:17:18 公開日:2024-04-07
# 二項の和和の4値家族の合理性

Rationality of Four-Valued Families of Weil Sums of Binomials ( http://arxiv.org/abs/2306.14414v2 )

ライセンス: Link先を確認
Daniel J. Katz, Allison E. Wong, (参考訳) W^{K,s}_u=\sum_{x \in K} \psi(x^s - u x)$, where $K$ is a finite field that canonical additive character is $\psi$, and $u$ is a element of $K^{\times}$ and $s$ is a positive integer relative prime to $|K^\times|$, that $x \mapsto x^s$ is a permutation of $K$。 W^{K,s}_u$ as $u$ run through $K^\times$のWeilスペクトルは、算術幾何学やいくつかの情報理論の応用に関心がある。 ヴェイユスペクトルは常に、$s$が非退化であれば少なくとも3つの異なる値を含む(すなわち、$s$が$p$ modulo $|K^\times|$のパワーではないなら、$p$は$K$の特徴である)。 ヴェイユスペクトルが正確に3つの異なる値を含むならば、それらはすべて有理整数でなければならないことは既に知られている。 ワイルスペクトルが正確に4つの異なる値を含むならば、これらはすべて有理整数でなければならないが、この場合の唯一の例外は、$|K|=5$ と $s \equiv 3 \pmod{4}$ である。

We investigate the rationality of Weil sums of binomials of the form $W^{K,s}_u=\sum_{x \in K} \psi(x^s - u x)$, where $K$ is a finite field whose canonical additive character is $\psi$, and where $u$ is an element of $K^{\times}$ and $s$ is a positive integer relatively prime to $|K^\times|$, so that $x \mapsto x^s$ is a permutation of $K$. The Weil spectrum for $K$ and $s$, which is the family of values $W^{K,s}_u$ as $u$ runs through $K^\times$, is of interest in arithmetic geometry and in several information-theoretic applications. The Weil spectrum always contains at least three distinct values if $s$ is nondegenerate (i.e., if $s$ is not a power of $p$ modulo $|K^\times|$, where $p$ is the characteristic of $K$). It is already known that if the Weil spectrum contains precisely three distinct values, then they must all be rational integers. We show that if the Weil spectrum contains precisely four distinct values, then they must all be rational integers, with the sole exception of the case where $|K|=5$ and $s \equiv 3 \pmod{4}$.
翻訳日:2024-04-10 05:07:30 公開日:2024-04-07
# DragDiffusion:インタラクティブなポイントベース画像編集のための拡散モデル

DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing ( http://arxiv.org/abs/2306.14435v6 )

ライセンス: Link先を確認
Yujun Shi, Chuhui Xue, Jun Hao Liew, Jiachun Pan, Hanshu Yan, Wenqing Zhang, Vincent Y. F. Tan, Song Bai, (参考訳) 正確かつ制御可能な画像編集は、最近大きな注目を集めている課題である。 特に、DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。 しかしながら、GAN(Generative Adversarial Network)に依存しているため、その一般化は事前訓練されたGANモデルの能力によって制限される。 本研究では,この編集フレームワークを拡散モデルに拡張し,新しいアプローチDragDiffusionを提案する。 大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。 提案手法では,空間制御の精度向上のために拡散潜水剤の最適化を行う。 この最適化プロセスの監督信号は拡散モデルのUNet特徴からであり、リッチな意味情報と幾何学的情報を含んでいることが知られている。 さらに、元の画像のアイデンティティをより保存するために、LoRAファインチューニングと潜在MasaCtrlという2つの追加技術を導入する。 最後に、インタラクティブなポイントベース画像編集手法の性能を評価する最初のベンチマークであるDragBenchという、挑戦的なベンチマークデータセットを示す。 例えば、複数のオブジェクトを持つ画像、多様なオブジェクトカテゴリ、さまざまなスタイルなど)、広範囲にわたる実験は、DragDiffusionの汎用性と汎用性を示している。 コード:https://github.com/Yujun-Shi/DragDiffusion

Accurate and controllable image editing is a challenging task that has attracted significant attention recently. Notably, DragGAN is an interactive point-based image editing framework that achieves impressive editing results with pixel-level precision. However, due to its reliance on generative adversarial networks (GANs), its generality is limited by the capacity of pretrained GAN models. In this work, we extend this editing framework to diffusion models and propose a novel approach DragDiffusion. By harnessing large-scale pretrained diffusion models, we greatly enhance the applicability of interactive point-based editing on both real and diffusion-generated images. Our approach involves optimizing the diffusion latents to achieve precise spatial control. The supervision signal of this optimization process is from the diffusion model's UNet features, which are known to contain rich semantic and geometric information. Moreover, we introduce two additional techniques, namely LoRA fine-tuning and latent-MasaCtrl, to further preserve the identity of the original image. Lastly, we present a challenging benchmark dataset called DragBench -- the first benchmark to evaluate the performance of interactive point-based image editing methods. Experiments across a wide range of challenging cases (e.g., images with multiple objects, diverse object categories, various styles, etc.) demonstrate the versatility and generality of DragDiffusion. Code: https://github.com/Yujun-Shi/DragDiffusion.
翻訳日:2024-04-10 05:07:30 公開日:2024-04-07
# Jaynes-Cummingsダイマーの非平衡ダイナミクス

Nonequilibrium dynamics of the Jaynes-Cummings dimer ( http://arxiv.org/abs/2307.00614v2 )

ライセンス: Link先を確認
G. Vivek, Debabrata Mondal, S. Sinha, (参考訳) 本稿では,Josephson結合型Jaynes-CummingsダイマーのKerr非線形性の存在下での非平衡ダイナミクスについて検討する。 半古典力学は系統的に解析され、様々なフォトニックジョセフソン振動とその安定性の機構をチャートアップする。 動的状態間の異なるタイプの遷移は、自己トラッピング現象を引き起こし、2つの空洞間の光子集団の不均衡をもたらす。 また、異なる定常状態の特徴的特徴を量子力学で同定し、スピンの脱落、位相変動、光子場の再生現象、スピン量子ビットの絡み合いなどの興味深い量子効果を探索する。 特定の「自己追跡」状態において、原子量子ビット間の相互情報は光子集団の不均衡と直接相関を示し、光子を介する2つの非相互作用量子ビット間の絡み合いを制御的に生成することを約束する。 安定状態から不安定状態への急激なクエンチの下では、光子分布は熱状態に似たコヒーレンスが急速に失われる相空間の混合を示す。 最後に、量子情報処理や量子技術に応用できる実験における新しい結果の関連性について論じる。

We investigate the nonequilibrium dynamics of a Josephson-coupled Jaynes-Cummings dimer in the presence of Kerr nonlinearity, which can be realized in the cavity and circuit quantum electrodynamics systems. The semiclassical dynamics is analyzed systematically to chart out a variety of photonic Josephson oscillations and their regime of stability. Different types of transitions between the dynamical states lead to the self-trapping phenomenon, which results in photon population imbalance between the two cavities. We also study the dynamics quantum mechanically to identify characteristic features of different steady states and to explore fascinating quantum effects, such as spin dephasing, phase fluctuation, and revival phenomena of the photon field, as well as the entanglement of spin qubits. For a particular "self-trapped" state, the mutual information between the atomic qubits exhibits a direct correlation with the photon population imbalance, which is promising for generating photon mediated entanglement between two non interacting qubits in a controlled manner. Under a sudden quench from stable to unstable regime, the photon distribution exhibits phase space mixing with a rapid loss of coherence, resembling a thermal state. Finally, we discuss the relevance of the new results in experiments, which can have applications in quantum information processing and quantum technologies.
翻訳日:2024-04-10 05:07:30 公開日:2024-04-07
# PIGEON:画像位置情報の予測

PIGEON: Predicting Image Geolocations ( http://arxiv.org/abs/2307.05845v5 )

ライセンス: Link先を確認
Lukas Haas, Michal Skreta, Silas Alberti, Chelsea Finn, (参考訳) 惑星規模の画像のジオローカライゼーションは、世界中のどこから来た画像の多様性のため、依然として困難な問題である。 視覚変換器をベースとした手法は地理的局所化の精度を大幅に向上させたが、先行文学における成功はランドマークの画像の狭い分布に制約されており、性能は見当たらない場所に一般化されていない。 本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。 さらに,本研究は,推定精度を高めるため,位置クラスタ上で検索を行う最初の試みである。 まず,Geoguessrのゲームから得られたデータに基づいてトレーニングを行い,目標地点から25km以内に推定値の40%以上を世界規模で配置することができる。 また、ロボットを開発し、人間に対する盲点実験でPIGEONをデプロイし、プレイヤーの上位0.01%にランク付けした。 我々はまた、世界有数のプロであるGeoguessrプレーヤーの1人に対して、数百万人の視聴者と6試合に挑戦し、6試合全てで勝利した。 第2のモデルであるPIGEOTTOは、FlickrとWikipediaの画像データセットでトレーニングされ、幅広い画像ジオローカライゼーションベンチマークで最先端の結果を達成し、都市の精度レベルでは最大7.7%、国レベルでは最大38.8ポイントのSOTAを上回ります。 この結果から,PIGEOTTOは未知の場所に効果的に一般化する最初の画像ジオローカライゼーションモデルであり,高精度で惑星規模の画像ジオローカライゼーションシステムを実現するための道を開くことができることが示唆された。 私たちのコードはGitHubで入手可能です。

Planet-scale image geolocalization remains a challenging problem due to the diversity of images originating from anywhere in the world. Although approaches based on vision transformers have made significant progress in geolocalization accuracy, success in prior literature is constrained to narrow distributions of images of landmarks, and performance has not generalized to unseen places. We present a new geolocalization system that combines semantic geocell creation, multi-task contrastive pretraining, and a novel loss function. Additionally, our work is the first to perform retrieval over location clusters for guess refinements. We train two models for evaluations on street-level data and general-purpose image geolocalization; the first model, PIGEON, is trained on data from the game of Geoguessr and is capable of placing over 40% of its guesses within 25 kilometers of the target location globally. We also develop a bot and deploy PIGEON in a blind experiment against humans, ranking in the top 0.01% of players. We further challenge one of the world's foremost professional Geoguessr players to a series of six matches with millions of viewers, winning all six games. Our second model, PIGEOTTO, differs in that it is trained on a dataset of images from Flickr and Wikipedia, achieving state-of-the-art results on a wide range of image geolocalization benchmarks, outperforming the previous SOTA by up to 7.7 percentage points on the city accuracy level and up to 38.8 percentage points on the country level. Our findings suggest that PIGEOTTO is the first image geolocalization model that effectively generalizes to unseen places and that our approach can pave the way for highly accurate, planet-scale image geolocalization systems. Our code is available on GitHub.
翻訳日:2024-04-10 05:07:30 公開日:2024-04-07
# MuLMINet: 軽量なマルチ層マルチ入力トランスネットワーク

MuLMINet: Multi-Layer Multi-Input Transformer Network with Weighted Loss ( http://arxiv.org/abs/2307.08262v2 )

ライセンス: Link先を確認
Minwoo Seong, Jeongseok Oh, SeungJun Kim, (参考訳) バドミントンのようなターンベーススポーツにおける人工知能(AI)技術の利用の増加は、マッチビデオデータの分析を通じて戦略を評価することに大きな関心を喚起している。 過去のショットに基づいて将来のショットを予測することは、コーチングと戦略的計画において重要な役割を担います。 本研究では,プロのバドミントンプレーヤーのマッチングデータを利用して,将来的なショットタイプや領域座標を正確に予測するマルチ層マルチ入力トランスフォーマネットワーク(MuLMINet)を提案する。 IJCAI CoachAI Badminton Challenge 2023, Track 2で優勝(2位)を果たした。 さらなる研究を促進するため、我々は私たちのコードをオンラインで公開し、AI支援スポーツ分析の分野における幅広い研究コミュニティの知識と進歩に貢献しました。

The increasing use of artificial intelligence (AI) technology in turn-based sports, such as badminton, has sparked significant interest in evaluating strategies through the analysis of match video data. Predicting future shots based on past ones plays a vital role in coaching and strategic planning. In this study, we present a Multi-Layer Multi-Input Transformer Network (MuLMINet) that leverages professional badminton player match data to accurately predict future shot types and area coordinates. Our approach resulted in achieving the runner-up (2nd place) in the IJCAI CoachAI Badminton Challenge 2023, Track 2. To facilitate further research, we have made our code publicly accessible online, contributing to the broader research community's knowledge and advancements in the field of AI-assisted sports analysis.
翻訳日:2024-04-10 05:07:30 公開日:2024-04-07
# RNNによる線形時間不変系の普遍近似:貯留層計算におけるランダム性のパワー

Universal Approximation of Linear Time-Invariant (LTI) Systems through RNNs: Power of Randomness in Reservoir Computing ( http://arxiv.org/abs/2308.02464v2 )

ライセンス: Link先を確認
Shashank Jere, Lizhong Zheng, Karim Said, Lingjia Liu, (参考訳) リカレントニューラルネットワーク(RNN)は、比較的穏やかで一般的な仮定の下で、動的システムの普遍的な近似器として知られている。 しかしながら、RNNは通常、標準のRNNトレーニングにおける勾配の消滅と爆発という問題に悩まされる。 Reservoir Computing (RC)は、リカレントウェイトがランダム化されトレーニングされていない特殊なRNNであり、これらの問題を克服するために導入され、特にトレーニングサンプルが極端に制限されたシナリオにおいて、優れた経験的性能を示している。 一方、この観測性能を支持する理論的根拠は、まだ完全には開発されていない。 本研究では、RCが一般線形時間不変系(LTI)を普遍的に近似できることを示す。 具体的には、RCの明確な信号処理解釈を示し、汎用LTIシステムの近似問題においてこの理解を利用する。 この設定では、RCの根底にあるRNNの繰り返し重みを設定する(トレーニングやランダムに生成するのではなく)ための最適確率密度関数を解析的に特徴付ける。 RCの繰り返し重みを設定するために導出分布の最適性を検証し、一般LTIシステムに近似する。 本研究は、RCの信号処理に基づくモデル解釈可能性を明確にし、RCの繰り返し重みをトレーニングする代わりにランダムに生成するランダム性のパワーを理論的に説明・補正する。 さらに、トレーニングされていないリカレントウェイトを設定するのに最適な分析特性を提供し、効率的な学習のためにドメイン知識を組み込むための説明可能な機械学習(XML)への重要なステップを示す。

Recurrent neural networks (RNNs) are known to be universal approximators of dynamic systems under fairly mild and general assumptions. However, RNNs usually suffer from the issues of vanishing and exploding gradients in standard RNN training. Reservoir computing (RC), a special RNN where the recurrent weights are randomized and left untrained, has been introduced to overcome these issues and has demonstrated superior empirical performance especially in scenarios where training samples are extremely limited. On the other hand, the theoretical grounding to support this observed performance has yet been fully developed. In this work, we show that RC can universally approximate a general linear time-invariant (LTI) system. Specifically, we present a clear signal processing interpretation of RC and utilize this understanding in the problem of approximating a generic LTI system. Under this setup, we analytically characterize the optimum probability density function for configuring (instead of training and/or randomly generating) the recurrent weights of the underlying RNN of the RC. Extensive numerical evaluations are provided to validate the optimality of the derived distribution for configuring the recurrent weights of the RC to approximate a general LTI system. Our work results in clear signal processing-based model interpretability of RC and provides theoretical explanation/justification for the power of randomness in randomly generating instead of training RC's recurrent weights. Furthermore, it provides a complete optimum analytical characterization for configuring the untrained recurrent weights, marking an important step towards explainable machine learning (XML) to incorporate domain knowledge for efficient learning.
翻訳日:2024-04-10 04:57:43 公開日:2024-04-07
# WeaverBird: 大規模言語モデル,知識ベース,検索エンジンによる財務意思決定の強化

WeaverBird: Empowering Financial Decision-Making with Large Language Model, Knowledge Base, and Search Engine ( http://arxiv.org/abs/2308.05361v4 )

ライセンス: Link先を確認
Siqiao Xue, Fan Zhou, Yi Xu, Ming Jin, Qingsong Wen, Hongyan Hao, Qingyang Dai, Caigao Jiang, Hongyu Zhao, Shuo Xie, Jianshan He, James Zhang, Hongyuan Mei, (参考訳) 本稿では,金融分野向けに設計されたインテリジェント対話システムWeaverBirdを紹介する。 本システムは,金融関連テキストの広範なコーパスを用いて調整されたGPTアーキテクチャの大規模言語モデルを利用する。 その結果,我々のシステムは,「インフレーション時に投資をどのように管理すべきか」といった複雑な金融クエリを把握し,インフォームド・レスポンスを提供する能力を持っている。 さらに,本システムでは,ローカル知識ベースと検索エンジンを組み込んで関連情報を検索する。 最終応答は検索結果に条件付けされ、ソースへの適切な引用を含むことにより、信頼性が向上する。 ファイナンス関連の様々な質問を通じて、他のモデルと比較して、システムの性能が優れていることを実証した。 私たちのシステムを手動で体験するために、ユーザはhttps://weaverbird.ttic.eduで私たちのライブデモと対話したり、https://www.youtube.com/watchで私たちの2分間のビデオイラストを見ることができますか? v=yofgeqnrMc。

We present WeaverBird, an intelligent dialogue system designed specifically for the finance domain. Our system harnesses a large language model of GPT architecture that has been tuned using extensive corpora of finance-related text. As a result, our system possesses the capability to understand complex financial queries, such as "How should I manage my investments during inflation?", and provide informed responses. Furthermore, our system incorporates a local knowledge base and a search engine to retrieve relevant information. The final responses are conditioned on the search results and include proper citations to the sources, thus enjoying an enhanced credibility. Through a range of finance-related questions, we have demonstrated the superior performance of our system compared to other models. To experience our system firsthand, users can interact with our live demo at https://weaverbird.ttic.edu, as well as watch our 2-min video illustration at https://www.youtube.com/watch?v=yofgeqnlrMc.
翻訳日:2024-04-10 04:57:43 公開日:2024-04-07
# PV-SSD: 射影特徴と可変場ボクセル特徴のためのマルチモーダルポイントクラウド特徴融合法

PV-SSD: A Multi-Modal Point Cloud Feature Fusion Method for Projection Features and Variable Receptive Field Voxel Features ( http://arxiv.org/abs/2308.06791v5 )

ライセンス: Link先を確認
Yongxin Shao, Aihong Tan, Zhetao Sun, Enhui Zheng, Tianhong Yan, Peng Liao, (参考訳) LiDARに基づく3Dオブジェクトの検出と分類は、自動運転に不可欠である。 しかし、非常にスパースな3Dデータからのリアルタイム推論は、非常に難しい課題である。 この問題に対処するために、典型的なアプローチのクラスは、点雲のキャストを正規データ表現(ボクセルや投影マップ)に変換する。 そして、畳み込みニューラルネットワークを用いて特徴抽出を行う。 しかし、そのような手法は、ダウンサンプリングや過剰な特徴情報の圧縮によって、ある程度の情報損失をもたらすことが多い。 本稿では,情報損失問題の解法として,投射特性と可変受容野ボクセル特徴(PV-SSD)をベースとしたマルチモーダル点雲特徴融合法を提案する。 本研究では,2次元畳み込みニューラルネットワークを用いた2枝特徴抽出構造を設計し,局所特徴間の相関に着目した鳥眼視で点雲の投影特徴を抽出する。 ボクセル特徴抽出枝を用いて局所的な微細な特徴を抽出する。 一方, センサの可変な特徴抽出手法を提案し, ダウンサンプリングによるボクセル枝の情報損失を低減する。 検出タスクの特徴点重みに基づいて、より有用な特徴点を選択することで、臨界点情報の欠落を回避する。 さらに,ポイントクラウドのためのマルチモーダル機能融合モジュールを提案する。 提案手法の有効性を検証するため,KITTIデータセットとONCEデータセットを用いて実験を行った。

LiDAR-based 3D object detection and classification is crucial for autonomous driving. However, real-time inference from extremely sparse 3D data is a formidable challenge. To address this problem, a typical class of approaches transforms the point cloud cast into a regular data representation (voxels or projection maps). Then, it performs feature extraction with convolutional neural networks. However, such methods often result in a certain degree of information loss due to down-sampling or over-compression of feature information. This paper proposes a multi-modal point cloud feature fusion method for projection features and variable receptive field voxel features (PV-SSD) based on projection and variable voxelization to solve the information loss problem. We design a two-branch feature extraction structure with a 2D convolutional neural network to extract the point cloud's projection features in bird's-eye view to focus on the correlation between local features. A voxel feature extraction branch is used to extract local fine-grained features. Meanwhile, we propose a voxel feature extraction method with variable sensory fields to reduce the information loss of voxel branches due to downsampling. It avoids missing critical point information by selecting more useful feature points based on feature point weights for the detection task. In addition, we propose a multi-modal feature fusion module for point clouds. To validate the effectiveness of our method, we tested it on the KITTI dataset and ONCE dataset.
翻訳日:2024-04-10 04:57:43 公開日:2024-04-07
# CARLA:時系列異常検出のための自己教師付きコントラスト表現学習

CARLA: Self-supervised Contrastive Representation Learning for Time Series Anomaly Detection ( http://arxiv.org/abs/2308.09296v3 )

ライセンス: Link先を確認
Zahra Zamanzadeh Darban, Geoffrey I. Webb, Shirui Pan, Charu C. Aggarwal, Mahsa Salehi, (参考訳) 時系列異常検出(TSAD)の主な課題は、多くの実生活シナリオにおいてラベル付きデータの欠如である。 既存の異常検出手法の多くは、教師なしの方法で非ラベル時系列の正常な振る舞いを学習することに焦点を当てている。 通常の境界はしばしば厳密に定義され、わずかな偏差は異常に分類され、結果として偽陽性率が高く、通常のパターンを一般化する能力が制限される。 そこで本研究では,時系列異常検出(CARLA)のための,エンドツーエンドの自己教師型コントラアスティブ表現学習手法を提案する。 既存のコントラスト学習手法では、拡張時系列ウィンドウは正のサンプルであり、時間的に離れたウィンドウは負のサンプルであると仮定しているが、これらの仮定は、時系列の増大がそれらを負のサンプルに変換し、時間的に離れたウィンドウは正のサンプルを表すことができるため、制限されている。 我々の対照的なアプローチは、時系列異常に関する既存の一般的な知識を活用し、様々な種類の異常を負のサンプルとして注入する。 したがって、CARLAは正常な振る舞いを学ぶだけでなく、異常を示す偏差も学ぶ。 時間的に閉じたウィンドウと、異常の異なるウィンドウに類似した表現を生成する。 さらに、最寄り/最寄りの隣人に基づいてウィンドウを分類する自己教師型アプローチにより、表現の隣人に関する情報を活用し、異常検出の性能をさらに向上させる。 CARLAは、7つの主要な実世界の時系列異常検出データセットの広範なテストにおいて、最先端の自己監督的かつ教師なしのTSAD法よりも優れた性能を示す。 本研究は,時系列異常検出におけるコントラスト表現学習の可能性を示す。

One main challenge in time series anomaly detection (TSAD) is the lack of labelled data in many real-life scenarios. Most of the existing anomaly detection methods focus on learning the normal behaviour of unlabelled time series in an unsupervised manner. The normal boundary is often defined tightly, resulting in slight deviations being classified as anomalies, consequently leading to a high false positive rate and a limited ability to generalise normal patterns. To address this, we introduce a novel end-to-end self-supervised ContrAstive Representation Learning approach for time series Anomaly detection (CARLA). While existing contrastive learning methods assume that augmented time series windows are positive samples and temporally distant windows are negative samples, we argue that these assumptions are limited as augmentation of time series can transform them to negative samples, and a temporally distant window can represent a positive sample. Our contrastive approach leverages existing generic knowledge about time series anomalies and injects various types of anomalies as negative samples. Therefore, CARLA not only learns normal behaviour but also learns deviations indicating anomalies. It creates similar representations for temporally closed windows and distinct ones for anomalies. Additionally, it leverages the information about representations' neighbours through a self-supervised approach to classify windows based on their nearest/furthest neighbours to further enhance the performance of anomaly detection. In extensive tests on seven major real-world time series anomaly detection datasets, CARLA shows superior performance over state-of-the-art self-supervised and unsupervised TSAD methods. Our research shows the potential of contrastive representation learning to advance time series anomaly detection.
翻訳日:2024-04-10 04:47:47 公開日:2024-04-07
# Convoifilter : カクテルパーティー音声認識の事例

Convoifilter: A case study of doing cocktail party speech recognition ( http://arxiv.org/abs/2308.11380v3 )

ライセンス: Link先を確認
Thai-Binh Nguyen, Alexander Waibel, (参考訳) 本稿では、混み合った雑音環境下で、特定の話者に対する音声認識(ASR)を改善するために設計されたエンドツーエンドモデルを提案する。 このモデルは、話者の声を背景雑音(ConVoiFilter)とASRモジュールから分離する単一チャンネル音声強調モジュールを利用する。 このモデルは、このアプローチにより、ASRの単語誤り率(WER)を80%から26.4%に下げることができる。 通常、これらの2つのコンポーネントはデータ要求の変化のために独立して調整される。 しかし、音声強調は、ASR効率を低下させる異常を引き起こす可能性がある。 ジョイントファインチューニング戦略を実装することで、WERを26.4%の個別チューニングから14.5%のジョイントチューニングに削減することができる。 我々はオープンに事前学習モデルを共有し、hf.co/nguyenvulebinh/voice-filterのさらなる研究を促進する。

This paper presents an end-to-end model designed to improve automatic speech recognition (ASR) for a particular speaker in a crowded, noisy environment. The model utilizes a single-channel speech enhancement module that isolates the speaker's voice from background noise (ConVoiFilter) and an ASR module. The model can decrease ASR's word error rate (WER) from 80% to 26.4% through this approach. Typically, these two components are adjusted independently due to variations in data requirements. However, speech enhancement can create anomalies that decrease ASR efficiency. By implementing a joint fine-tuning strategy, the model can reduce the WER from 26.4% in separate tuning to 14.5% in joint tuning. We openly share our pre-trained model to foster further research hf.co/nguyenvulebinh/voice-filter.
翻訳日:2024-04-10 04:47:47 公開日:2024-04-07
# 複合パルス系におけるロバスト量子制御のための教師付き学習

Supervised learning for robust quantum control in composite-pulse systems ( http://arxiv.org/abs/2308.11861v2 )

ライセンス: Link先を確認
Zhi-Cheng Shi, Jun-Tong Ding, Ye-Hong Chen, Jie Song, Yan Xia, X. X. Yi, Franco Nori, (参考訳) 本研究では,複合パルスシステムにおける堅牢な量子制御を実現するための教師付き学習モデルを開発する。 このモデルは、単一、複数、時間変化のあるエラーを含む、あらゆる種類の体系的エラーに対して大きな抵抗を示す。 位相パラメータのトレーニングに適応する修正された勾配降下アルゴリズムを提案し、異なるサンプリング手法が異なるロバストな性能をもたらすことを示す。 特に、与えられたトレーニングパラメータの数に対して、高い忠実性と堅牢性の間にトレードオフがあり、トレーニングパラメータ(パルス)の数を増やすことで、両方を同時に拡張することができる。 その応用として、現在のモデルを用いて、高忠実度任意の重ね合わせ状態と普遍量子ゲートをロバストな方法で達成できることを実証する。 この研究は、様々な物理パラメータをトレーニングすることで、フォールトトレラント量子計算のための高効率な学習モデルを提供する。

In this work, we develop a supervised learning model for implementing robust quantum control in composite-pulse systems, where the training parameters can be either phases, detunings, or Rabi frequencies. This model exhibits great resistance to all kinds of systematic errors, including single, multiple, and time-varying errors. We propose a modified gradient descent algorithm for adapting the training of phase parameters, and show that different sampling methods result in different robust performances. In particular, there is a trade-off between high fidelity and robustness for a given number of training parameters, and both can be simultaneously enhanced by increasing the number of training parameters (pulses). For its applications, we demonstrate that the current model can be used for achieving high-fidelity arbitrary superposition states and universal quantum gates in a robust manner. This work provides a highly efficient learning model for fault-tolerant quantum computation by training various physical parameters.
翻訳日:2024-04-10 04:47:47 公開日:2024-04-07
# バルク拡散量子系における演算子拡散による加速減衰

Accelerated Decay due to Operator Spreading in Bulk-Dissipated Quantum Systems ( http://arxiv.org/abs/2309.03485v2 )

ライセンス: Link先を確認
Tatsuhiko Shirai, Takashi Mori, (参考訳) マルコビアン開多体量子系は複雑な緩和ダイナミクスを示す。 リウヴィリアのスペクトルギャップは、漸近的な崩壊速度を定常状態に特徴付けるが、近年、スペクトルギャップが必ずしも全体の緩和時間を決定するとは限らないことが指摘されている。 漸近的長期体制以前の緩和過程に対する我々の理解はまだ限られている。 ここでは定常状態における自己相関関数の集合緩和ダイナミクスを示す。 解析において重要な量として、過渡緩和を特徴付ける瞬時崩壊率を導入し、長期限界における従来の漸近崩壊率に収束する。 我々の理論は、バルク散逸した系が、演算子の拡散に伴う量子情報の揺らぎにより、漸近的な状態の前に一般化的に加速した崩壊を示すことを予測している。

Markovian open many-body quantum systems display complicated relaxation dynamics. The spectral gap of the Liouvillian characterizes the asymptotic decay rate towards the stationary state, but it has recently been pointed out that the spectral gap does not necessarily determine the overall relaxation time. Our understanding on the relaxation process before the asymptotically long-time regime is still limited. We here present a collective relaxation dynamics of autocorrelation functions in the stationary state. As a key quantity in the analysis, we introduce the instantaneous decay rate, which characterizes the transient relaxation and converges to the conventional asymptotic decay rate in the long-time limit. Our theory predicts that a bulk-dissipated system generically shows an accelerated decay before the asymptotic regime due to the scrambling of quantum information associated with the operator spreading.
翻訳日:2024-04-10 04:47:47 公開日:2024-04-07
# MMSFormer: 材料・セマンティックセグメンテーション用マルチモーダルトランス

MMSFormer: Multimodal Transformer for Material and Semantic Segmentation ( http://arxiv.org/abs/2309.04001v4 )

ライセンス: Link先を確認
Md Kaykobad Reza, Ashley Prater-Bennette, M. Salman Asif, (参考訳) 多様なモダリティにまたがる情報を活用することで、マルチモーダルセグメンテーションタスクの性能を高めることが知られている。 しかし、各モーダルの特異な特徴のため、異なるモーダルから効果的に情報を融合することは依然として困難である。 本稿では,異なるモダリティの組み合わせから情報を効果的に融合できる新しい融合戦略を提案する。 また,MMSFormer(Multi-Modal Segmentation TransFormer)と呼ばれる新しいモデルを提案する。 MMSFormerは、現在の最先端モデルを3つの異なるデータセットで上回る。 1つの入力モダリティのみから始めると、追加のモダリティが組み込まれるにつれて、性能が徐々に向上し、多様な入力モダリティから有用な情報を組み合わせる上で、融合ブロックの有効性が示される。 アブレーション研究では、融合ブロック内の異なるモジュールが全体のモデル性能に不可欠であることが示されている。 さらに, 異なる種類の材料を識別する際の性能を向上させるために, 異なる入力モダリティの能力についても検討した。 コードと事前訓練されたモデルはhttps://github.com/csiplab/MMSFormer.comで入手できる。

Leveraging information across diverse modalities is known to enhance performance on multimodal segmentation tasks. However, effectively fusing information from different modalities remains challenging due to the unique characteristics of each modality. In this paper, we propose a novel fusion strategy that can effectively fuse information from different modality combinations. We also propose a new model named Multi-Modal Segmentation TransFormer (MMSFormer) that incorporates the proposed fusion strategy to perform multimodal material and semantic segmentation tasks. MMSFormer outperforms current state-of-the-art models on three different datasets. As we begin with only one input modality, performance improves progressively as additional modalities are incorporated, showcasing the effectiveness of the fusion block in combining useful information from diverse input modalities. Ablation studies show that different modules in the fusion block are crucial for overall model performance. Furthermore, our ablation studies also highlight the capacity of different input modalities to improve performance in the identification of different types of materials. The code and pretrained models will be made available at https://github.com/csiplab/MMSFormer.
翻訳日:2024-04-10 04:47:47 公開日:2024-04-07
# 制約付き組合せ最適化問題に対する後処理変分計画量子アルゴリズム

Post-processing variationally scheduled quantum algorithm for constrained combinatorial optimization problems ( http://arxiv.org/abs/2309.08120v3 )

ライセンス: Link先を確認
Tatsuhiko Shirai, Nozomu Togawa, (参考訳) 本稿では,制約付き組合せ最適化問題(COP)の解法として,変分計画量子アルゴリズム(pVSQA)を提案する。 一般的に、COPは量子アニールまたはゲート型量子デバイス上のイジングモデルの基底状態探索問題に変換される。 変分法は、短時間で高品質な解をもたらす最適なスケジュール関数を見つけるために用いられる。 後処理技術は、量子デバイスの出力解をCOPの制約を満たすように変換する。 pVSQAは変分法と後処理技術を組み合わせたものである。 我々は、制約付きCOPがgreedy後処理アルゴリズムに基づいてpVSQAを適用するのに十分な条件を得る。 提案手法はグラフ分割問題と2次クナップサック問題という2つの制約付きNPハード型COPに適用する。 シミュレータ上のpVSQAは,所定操作時間内に最適性能を達成するのに,少数の変動パラメータが十分であることを示す。 次に, シミュレーション結果に基づいて, pVSQAを量子アニールとゲート型量子デバイス上に実装する。 実験の結果,提案手法の有効性が示された。

We propose a post-processing variationally scheduled quantum algorithm (pVSQA) for solving constrained combinatorial optimization problems (COPs). COPs are typically transformed into ground-state search problems of the Ising model on a quantum annealer or gate-type quantum device. Variational methods are used to find an optimal schedule function that leads to high-quality solutions in a short amount of time. Post-processing techniques convert the output solutions of the quantum devices to satisfy the constraints of the COPs. pVSQA combines the variational methods and the post-processing technique. We obtain a sufficient condition for constrained COPs to apply pVSQA based on a greedy post-processing algorithm. We apply the proposed method to two constrained NP-hard COPs: the graph partitioning problem and the quadratic knapsack problem. pVSQA on a simulator shows that a small number of variational parameters is sufficient to achieve a (near-)optimal performance within a predetermined operation time. Then building upon the simulator results, we implement pVSQA on a quantum annealer and a gate-type quantum device. The experimental results demonstrate the effectiveness of our proposed method.
翻訳日:2024-04-10 04:37:55 公開日:2024-04-07
# 模倣学習におけるデータ強化によるゲームエージェントの一般化改善

Improving Generalization in Game Agents with Data Augmentation in Imitation Learning ( http://arxiv.org/abs/2309.12815v3 )

ライセンス: Link先を確認
Derek Yadgaroff, Alessandro Sestini, Konrad Tollmar, Ayca Ozcelikkale, Linus Gisslén, (参考訳) 模倣学習は、ゲームプレイングエージェントを訓練し、その結果、効率的なゲーム生産のための効果的なアプローチである。 しかし、一般化 — 関連するが目に見えないシナリオでうまく機能する能力 – は、ゲームAIにとって未解決の課題として依然として必須の要件である。 アルゴリズムがトレーニング分布外の有意義な行動を取る必要があるため、模倣学習エージェントには一般化が難しい。 本稿では,この問題に対する解決策を提案する。 教師あり学習におけるデータ強化の成功に触発されて、トレーニングデータを強化し、データセット内の状態と行動の分布が実際の状態-行動分布をより良く表現できるようにします。 本研究では、データ拡張を観測に組み合わせて適用する方法を評価し、模倣学習エージェントの一般化を改善する。 また、複数の3D環境にまたがるこれらの拡張のパフォーマンスベンチマークも提供する。 これらの結果から,データ拡張は模倣学習エージェントの一般化を促進する上で有望なフレームワークであることが示唆された。

Imitation learning is an effective approach for training game-playing agents and, consequently, for efficient game production. However, generalization - the ability to perform well in related but unseen scenarios - is an essential requirement that remains an unsolved challenge for game AI. Generalization is difficult for imitation learning agents because it requires the algorithm to take meaningful actions outside of the training distribution. In this paper we propose a solution to this challenge. Inspired by the success of data augmentation in supervised learning, we augment the training data so the distribution of states and actions in the dataset better represents the real state-action distribution. This study evaluates methods for combining and applying data augmentations to observations, to improve generalization of imitation learning agents. It also provides a performance benchmark of these augmentations across several 3D environments. These results demonstrate that data augmentation is a promising framework for improving generalization in imitation learning agents.
翻訳日:2024-04-10 04:37:55 公開日:2024-04-07
# Pivot要素認識によるネストイベント抽出

Nested Event Extraction upon Pivot Element Recogniton ( http://arxiv.org/abs/2309.12960v3 )

ライセンス: Link先を確認
Weicheng Ren, Zixuan Li, Xiaolong Jin, Long Bai, Miao Su, Yantao Liu, Saiping Guan, Jiafeng Guo, Xueqi Cheng, (参考訳) Nested Event extract(NEE)は、イベントが引数として再帰的に他のイベントを含む複雑なイベント構造を抽出することを目的としている。 ネストイベントは、インナーネストイベントの引き金として、同時に外ネストイベントの引数として機能し、ネストされた構造に接続する、ある種のPivot Elements(PE)を含む。 PEのこの特別な特徴は、PEの二重同一性にうまく対応できないため、既存のNEEメソッドに課題をもたらす。 そこで本研究では,PEの認識に基づくネストイベントを抽出するPerNeeというモデルを提案する。 具体的には、PerNeeはまずインナーネストとアウターネストの両方のイベントのトリガーを認識し、さらにトリガーペア間の関係タイプを分類することでPEを認識する。 モデルでは、イベントタイプと引数ロールの両方からの情報をインクルードして、より優れたトリガーと引数表現を使用して、NEEパフォーマンスを改善する。 既存のNEEデータセット(例:Genia11)は特定のドメインに限定されており、入れ子構造を持つイベントタイプが狭いため、ジェネリックドメイン内のネストイベントを体系的に分類し、ACE2005-Nestと呼ばれる新しいNEEデータセットを構築する。 実験の結果、PerNeeはACE2005-Nest、Genia11、Genia13の最先端性能を一貫して達成していることがわかった。 ACE2005-NestデータセットとPerNeeモデルのコードはhttps://github.com/waysonren/PerNeeで公開されている。

Nested Event Extraction (NEE) aims to extract complex event structures where an event contains other events as its arguments recursively. Nested events involve a kind of Pivot Elements (PEs) that simultaneously act as arguments of outer-nest events and as triggers of inner-nest events, and thus connect them into nested structures. This special characteristic of PEs brings challenges to existing NEE methods, as they cannot well cope with the dual identities of PEs. Therefore, this paper proposes a new model, called PerNee, which extracts nested events mainly based on recognizing PEs. Specifically, PerNee first recognizes the triggers of both inner-nest and outer-nest events and further recognizes the PEs via classifying the relation type between trigger pairs. The model uses prompt learning to incorporate information from both event types and argument roles for better trigger and argument representations to improve NEE performance. Since existing NEE datasets (e.g., Genia11) are limited to specific domains and contain a narrow range of event types with nested structures, we systematically categorize nested events in the generic domain and construct a new NEE dataset, called ACE2005-Nest. Experimental results demonstrate that PerNee consistently achieves state-of-the-art performance on ACE2005-Nest, Genia11, and Genia13. The ACE2005-Nest dataset and the code of the PerNee model are available at https://github.com/waysonren/PerNee.
翻訳日:2024-04-10 04:37:55 公開日:2024-04-07
# 正方格子上のJ_1-J_2$ハイゼンベルク模型におけるスピン液体相の存在

Absence of spin liquid phase in the $J_1-J_2$ Heisenberg model on the square lattice ( http://arxiv.org/abs/2309.13630v3 )

ライセンス: Link先を確認
Xiangjian Qian, Mingpu Qin, (参考訳) 正方格子上のJ_1-J_2$ハイゼンベルクモデルの位相図を詳細に調べる。 我々は密度行列再正規化グループと完全拡張行列積状態法を活用し、大きな結合次元で前例のない精度に達する。 我々は、位相遷移点をピンポイントするために励起レベル交差解析を利用する。 以前は、N'eel反強磁性(AFM)と価結合固相(VBS)で挟まれた狭いスピン液体相が存在すると考えられていた。 水平交差点の慎重な有限スケールスケーリングにより、N'eel AFM と VBS の位相間の直接位相遷移が$J_2/J_1 = 0.535(3)$ となり、中間スピン液相が存在しないことが示唆される。 また, 様々な大きさの基底状態エネルギーに対して正確な結果を提供し, N'eel AFM と VBS の相転移が連続していることを見出した。 これらの結果は、モデルに分解された量子臨界点が$J_2/J_1 = 0.535(3)$であることを示している。 VBSとストリップAFMの第一次相転移の正確な位置を、J_2/J_1=0.610$で決定する。

We perform an in-depth investigation of the phase diagram of the $J_1-J_2$ Heisenberg model on the square lattice. We take advantage of Density Matrix Renormalization Group and Fully-Augmented Matrix Product States methods and reach unprecedented accuracy with large bond dimensions. We utilize excited-level crossing analysis to pinpoint the phase transition points. It was believed before that there exists a narrow spin liquid phase sandwiched by the N\'eel antiferromagnetic (AFM) and valence bond solid (VBS) phases. Through careful finite size scaling of the level crossing points, we find a direct phase transition between the N\'eel AFM and VBS phases at $J_2/J_1 = 0.535(3)$, suggesting the absence of an intermediate spin liquid phase. We also provide accurate results for ground state energies for a variety of sizes, from which we find that the transition between the N\'eel AFM and VBS phases is continuous. These results indicate the existence of a deconfined quantum critical point at $J_2/J_1 = 0.535(3)$ in the model. From the crossing of the first derivative of the energies with $J_2$ for different sizes, we also determine the precise location of the first order phase transition between the VBS and stripe AFM phases at $J_2/J_1=0.610(5)$.
翻訳日:2024-04-10 04:37:55 公開日:2024-04-07
# CCEdit: 拡散モデルによる創造的で制御可能なビデオ編集

CCEdit: Creative and Controllable Video Editing via Diffusion Models ( http://arxiv.org/abs/2309.16496v3 )

ライセンス: Link先を確認
Ruoyu Feng, Wenming Weng, Yanhui Wang, Yuhui Yuan, Jianmin Bao, Chong Luo, Zhibo Chen, Baining Guo, (参考訳) 本稿では,拡散モデルに基づく汎用な生成ビデオ編集フレームワークであるCCEditを提案する。 我々のアプローチでは、構造と外観制御を分離し、正確で創造的な編集能力を確実にする新しいトリデントネットワーク構造を採用している。 基礎となる ControlNet アーキテクチャを利用することで,編集中のビデオの構造的整合性を維持する。 追加の外観分岐を組み込むことにより、ユーザーは編集されたキーフレームに対してきめ細かい制御を行うことができる。 これら2つのブランチは、学習可能な時間層を通じて、既存のテキスト・ツー・イメージ(T2I)生成モデルに基づいて構築されたメインブランチにシームレスに統合される。 フレームワークの汎用性は、構造表現とパーソナライズされたT2Iモデルの両方における多様な選択肢と、編集されたキーフレームを提供するオプションによって実証される。 包括的評価を容易にするため,100本のビデオと4本のターゲットプロンプトからなるBalanceCCベンチマークデータセットを導入した。 CCEditと8つの最先端ビデオ編集手法を比較した。 これらの結果は、CCEditが他のすべてのメソッドよりもかなり優れていることを示している。

In this paper, we present CCEdit, a versatile generative video editing framework based on diffusion models. Our approach employs a novel trident network structure that separates structure and appearance control, ensuring precise and creative editing capabilities. Utilizing the foundational ControlNet architecture, we maintain the structural integrity of the video during editing. The incorporation of an additional appearance branch enables users to exert fine-grained control over the edited key frame. These two side branches seamlessly integrate into the main branch, which is constructed upon existing text-to-image (T2I) generation models, through learnable temporal layers. The versatility of our framework is demonstrated through a diverse range of choices in both structure representations and personalized T2I models, as well as the option to provide the edited key frame. To facilitate comprehensive evaluation, we introduce the BalanceCC benchmark dataset, comprising 100 videos and 4 target prompts for each video. Our extensive user studies compare CCEdit with eight state-of-the-art video editing methods. The outcomes demonstrate CCEdit's substantial superiority over all other methods.
翻訳日:2024-04-10 04:37:55 公開日:2024-04-07
# CLIPデータのデマイズ

Demystifying CLIP Data ( http://arxiv.org/abs/2309.16671v4 )

ライセンス: Link先を確認
Hu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer, (参考訳) Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行い、現代の認識システムと生成モデルを活性化するアプローチである。 私たちは、CLIPの成功の主な要素は、そのデータであり、モデルアーキテクチャや事前学習の対象ではないと考えています。 しかし、CLIPはそのデータとどのように収集されたかについて、非常に限られた情報しか提供していないため、モデルパラメータでフィルタリングすることで、CLIPのデータを再現することを目的とした作業に繋がる。 本稿では,CLIPのデータキュレーションのアプローチを明らかにするとともに,MetaCLIP(Metadata-Curated Language- Image Pre-training)を紹介する。 MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。 実験では,データのみに集中して,モデルとトレーニング設定を厳格に分離した。 MetaCLIPはCommonCrawlに4億の画像テキストデータペアで適用され、CLIPのデータを複数の標準ベンチマークで上回っている。 ゼロショットイメージネット分類では、MetaCLIPは70.8%の精度で、ViT-BモデルでCLIPの68.3%を上回っている。 1Bデータへのスケーリングは同じトレーニング予算を維持しながら、72.4%に達する。 我々の観測は、ViT-Hが80.5%、ベル・アンド・ウィストルを使わずに、様々なモデルサイズにまたがっている。 メタデータのキュレーションコードとトレーニングデータの配布はhttps://github.com/facebookresearch/MetaCLIPで公開されている。

Contrastive Language-Image Pre-training (CLIP) is an approach that has advanced research and applications in computer vision, fueling modern recognition systems and generative models. We believe that the main ingredient to the success of CLIP is its data and not the model architecture or pre-training objective. However, CLIP only provides very limited information about its data and how it has been collected, leading to works that aim to reproduce CLIP's data by filtering with its model parameters. In this work, we intend to reveal CLIP's data curation approach and in our pursuit of making it open to the community introduce Metadata-Curated Language-Image Pre-training (MetaCLIP). MetaCLIP takes a raw data pool and metadata (derived from CLIP's concepts) and yields a balanced subset over the metadata distribution. Our experimental study rigorously isolates the model and training settings, concentrating solely on data. MetaCLIP applied to CommonCrawl with 400M image-text data pairs outperforms CLIP's data on multiple standard benchmarks. In zero-shot ImageNet classification, MetaCLIP achieves 70.8% accuracy, surpassing CLIP's 68.3% on ViT-B models. Scaling to 1B data, while maintaining the same training budget, attains 72.4%. Our observations hold across various model sizes, exemplified by ViT-H achieving 80.5%, without any bells-and-whistles. Curation code and training data distribution on metadata is made available at https://github.com/facebookresearch/MetaCLIP.
翻訳日:2024-04-10 04:28:07 公開日:2024-04-07
# 注意シンク付き効率的なストリーミング言語モデル

Efficient Streaming Language Models with Attention Sinks ( http://arxiv.org/abs/2309.17453v4 )

ライセンス: Link先を確認
Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis, (参考訳) 長時間の対話が期待されるマルチラウンド対話のようなストリーミングアプリケーションに大規模言語モデル(LLM)をデプロイすることは、緊急に必要だが、2つの大きな課題を提起する。 まず、デコーディングの段階では、以前のトークンのキーとバリューステート(KV)をキャッシュすることで、広範なメモリを消費する。 第二に、人気のあるLLMはトレーニングシーケンス長よりも長いテキストに一般化できない。 最新のKVだけがキャッシュされるウィンドウアテンションは自然なアプローチだが、テキスト長がキャッシュサイズを超えると失敗することを示している。 我々は、初期トークンのKVを維持することで、窓の注意を回復する興味深い現象、すなわち注意シンクを観察する。 本稿では,最初に注意シンクの出現は,意味的に重要でない場合でも,初期トークンを「シンク」として注目するスコアが強いことに起因することを実証する。 以上の分析に基づいて,有限長注意ウィンドウで学習したLLMを微調整なしで無限列長に一般化する,効率的なフレームワークであるStreamingLLMを導入する。 StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。 さらに,事前トレーニング中に専用の注意シンクとしてプレースホルダトークンを追加することで,ストリーミングデプロイメントをさらに改善できることが判明した。 ストリーミング設定では、StreamingLLMは最大22.2倍のスピードアップでスライディングウィンドウ再計算ベースラインを上回っている。 コードとデータセットはhttps://github.com/mit-han-lab/streaming-llm.comで提供されている。

Deploying Large Language Models (LLMs) in streaming applications such as multi-round dialogue, where long interactions are expected, is urgently needed but poses two major challenges. Firstly, during the decoding stage, caching previous tokens' Key and Value states (KV) consumes extensive memory. Secondly, popular LLMs cannot generalize to longer texts than the training sequence length. Window attention, where only the most recent KVs are cached, is a natural approach -- but we show that it fails when the text length surpasses the cache size. We observe an interesting phenomenon, namely attention sink, that keeping the KV of initial tokens will largely recover the performance of window attention. In this paper, we first demonstrate that the emergence of attention sink is due to the strong attention scores towards initial tokens as a "sink" even if they are not semantically important. Based on the above analysis, we introduce StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence lengths without any fine-tuning. We show that StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. In addition, we discover that adding a placeholder token as a dedicated attention sink during pre-training can further improve streaming deployment. In streaming settings, StreamingLLM outperforms the sliding window recomputation baseline by up to 22.2x speedup. Code and datasets are provided at https://github.com/mit-han-lab/streaming-llm.
翻訳日:2024-04-10 04:28:07 公開日:2024-04-07
# Corex: 複数モデルコラボレーションによる複雑な推論の境界を押し上げる

Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration ( http://arxiv.org/abs/2310.00280v2 )

ライセンス: Link先を確認
Qiushi Sun, Zhangyue Yin, Xiang Li, Zhiyong Wu, Xipeng Qiu, Lingpeng Kong, (参考訳) 大規模言語モデル(LLM)は前例のないペースで進化しており、世界的知識を持つ自然言語処理(NLP)の領域でかなりの能力を発揮している。 超大規模トレーニングコーパスの恩恵を受け、単一のLCMは典型的なNLPタスクを能動的に管理できる。 しかしながら、推論タスクの実行時のパフォーマンスは、内部表現の制限によって制限されている。 この境界をさらに推し進めるために、複雑なタスク解決のための多モデルコラボレーションを開拓する自律エージェントにLSMを変換する新しい汎用戦略スイートであるCorexを紹介します。 人間の行動にインスパイアされたコークスは、議論、レビュー、検索モードなどの多様なコラボレーションパラダイムによって構成され、事実性、忠実性、推論プロセスの信頼性の向上に一括して取り組んでいる。 これらのパラダイムは、LCMが「箱の外を考えて」、幻覚を克服し、より良いソリューションを提供できるようなタスクに依存しないアプローチを促進する。 4種類の推論タスクにまたがる広範囲な実験を通して,複数のLDMを協調して協調作業を行うことは,既存の手法に比べてかなり優れた性能を示すことを示した。 さらなる結果と詳細な分析により,提案手法の費用対効果が示され,LLM間の協調が促進され,アノテーション効率が向上した。

Large Language Models (LLMs) are evolving at an unprecedented pace and have exhibited considerable capability in the realm of natural language processing (NLP) with world knowledge. Benefiting from ultra-large-scale training corpora, a single LLM can manage typical NLP tasks competently. However, its performance in executing reasoning tasks is still confined by the limitations of its internal representations. To push this boundary further, we introduce Corex in this paper, a suite of novel general-purpose strategies that transform LLMs into autonomous agents pioneering multi-model collaborations for complex task-solving. Inspired by human behaviors, Corex is constituted by diverse collaboration paradigms including Debate, Review, and Retrieve modes, which collectively work towards enhancing the factuality, faithfulness, and reliability of the reasoning process. These paradigms foster task-agnostic approaches that enable LLMs to ''think outside the box,'' thereby overcoming hallucinations and providing better solutions. Through extensive experiments across four different types of reasoning tasks, we demonstrate that orchestrating multiple LLMs to work in concert yields substantially better performance compared to existing methods. Further results and in-depth analysis demonstrate the cost-effectiveness of our method, facilitating collaboration among different LLMs and promoting annotation efficiency.
翻訳日:2024-04-10 04:28:07 公開日:2024-04-07
# カスケード拡散モデルによる熱帯サイクロンの予測

Forecasting Tropical Cyclones with Cascaded Diffusion Models ( http://arxiv.org/abs/2310.01690v6 )

ライセンス: Link先を確認
Pritthijit Nath, Pancham Shukla, Shuai Wang, César Quilodrán-Casas, (参考訳) 気候変動により熱帯性サイクロンが強くなるにつれて、Alベースのモデリングの台頭は、数学的モデルに基づく伝統的な手法に比べて、より手頃で手頃なアプローチを提供する。 この研究は、生成拡散モデルを利用して、衛星画像、リモートセンシング、大気データを統合することでサイクロン軌道と降水パターンを予測する。 予測、超解像、降水モデルという3つの主要なタスクを取り入れたケースケードアプローチを採用している。 トレーニングデータセットには、2019年1月から2023年3月までの6つの主要な熱帯サイクロン盆地から51のサイクロンが含まれている。 実験により, 3つのタスクでそれぞれ0.5および20dBを超える優れた構造類似度(SSIM)とピーク・シンガル・トゥ・ノイズ比(PSNR)の36時間ロールアウトの正確な予測が得られた。 36時間の予測は1台のNvidia A30/RTX 2080 Tiで30分で作成できる。 この研究は、熱帯性サイクロン予測のような気象予報における高性能需要のための拡散モデルのようなAl手法の有望な効率性を強調しつつ、計算に手頃な価格のままであり、重要な予測ニーズと金融制限のある高度に脆弱な領域に理想的であることを強調した。 コードは \url{https://github.com/nathzi1505/forecast-diffmodels} でアクセス可能である。

As tropical cyclones become more intense due to climate change, the rise of Al-based modelling provides a more affordable and accessible approach compared to traditional methods based on mathematical models. This work leverages generative diffusion models to forecast cyclone trajectories and precipitation patterns by integrating satellite imaging, remote sensing, and atmospheric data. It employs a cascaded approach that incorporates three main tasks: forecasting, super-resolution, and precipitation modelling. The training dataset includes 51 cyclones from six major tropical cyclone basins from January 2019 - March 2023. Experiments demonstrate that the final forecasts from the cascaded models show accurate predictions up to a 36-hour rollout, with excellent Structural Similarity (SSIM) and Peak-Singal-To-Noise Ratio (PSNR) values exceeding 0.5 and 20 dB, respectively, for all three tasks. The 36-hour forecasts can be produced in as little as 30 mins on a single Nvidia A30/RTX 2080 Ti. This work also highlights the promising efficiency of Al methods such as diffusion models for high-performance needs in weather forecasting, such as tropical cyclone forecasting, while remaining computationally affordable, making them ideal for highly vulnerable regions with critical forecasting needs and financial limitations. Code accessible at \url{https://github.com/nathzi1505/forecast-diffmodels}.
翻訳日:2024-04-10 04:28:07 公開日:2024-04-07
# TacoGFN:構造型医薬品設計のためのターゲット条件付きGFlowNet

TacoGFN: Target-conditioned GFlowNet for Structure-based Drug Design ( http://arxiv.org/abs/2310.03223v5 )

ライセンス: Link先を確認
Tony Shen, Seonghwan Seo, Grayson Lee, Mohit Pandey, Jason R Smith, Artem Cherkasov, Woo Youn Kim, Martin Ester, (参考訳) タンパク質ポケットに高い結合親和性を持つ薬物や合成可能な分子の広大な化学領域を探索することは、薬物発見の難しい課題である。 近年、タンパク質構造に基づいて分子を直接生成することにより、網羅的な仮想スクリーニングよりも効率の高い分子深層生成モデルが導入された。 しかし、制限されたタンパク質-リガンド複合体データセットの分布を学習するため、既存の手法では大きな特性改善を伴う新規分子の生成に苦慮している。 本稿では, 生成タスクを強化学習タスクとみなし, このタスクの目的は, トレーニングデータ分布に適合するのではなく, 望ましい性質を持つ分子のより広い化学空間を探索することである。 具体的には,タンパク質ポケット構造を前提とした生成フローネットワークであるTacoGFNを提案する。 提案手法は分子特性(Vina score, QED, SA)のCrossDocked2020ベンチマークにおける最先端手法よりも優れ, 生成時間も大幅に向上した。 タコGFNは平均ドッキングスコアが8.82ドル、ノベル・ヒットレートが52.63セントである。

Searching the vast chemical space for drug-like and synthesizable molecules with high binding affinity to a protein pocket is a challenging task in drug discovery. Recently, molecular deep generative models have been introduced which promise to be more efficient than exhaustive virtual screening, by directly generating molecules based on the protein structure. However, since they learn the distribution of a limited protein-ligand complex dataset, the existing methods struggle with generating novel molecules with significant property improvements. In this paper, we frame the generation task as a Reinforcement Learning task, where the goal is to search the wider chemical space for molecules with desirable properties as opposed to fitting a training data distribution. More specifically, we propose TacoGFN, a Generative Flow Network conditioned on protein pocket structure, using binding affinity, drug-likeliness and synthesizability measures as our reward. Empirically, our method outperforms state-of-art methods on the CrossDocked2020 benchmark for every molecular property (Vina score, QED, SA), while significantly improving the generation time. TacoGFN achieves $-8.82$ in median docking score and $52.63\%$ in Novel Hit Rate.
翻訳日:2024-04-10 04:28:07 公開日:2024-04-07
# Tailored Visions: パーソナライズされたプロンプト書き換えによるテキスト・ツー・イメージ・ジェネレーションの強化

Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting ( http://arxiv.org/abs/2310.08129v3 )

ライセンス: Link先を確認
Zijie Chen, Lichao Zhang, Fangsheng Weng, Lili Pan, Zhenzhong Lan, (参考訳) この分野における大きな進歩にもかかわらず、個々のユーザの欲求や好みと密接に一致したパーソナライズされた視覚表現を作ることは依然として困難である。 このプロセスでは、モデルに理解可能な言葉でアイデアを表現し、ビジョンを正確に捉え、多くのユーザにとって困難を呈する。 本稿では,システムとの歴史的ユーザインタラクションを活用してユーザプロンプトを強化することで,この問題に対処する。 本稿では,3115名のユーザから300万以上のプロンプトを収集した大規模テキスト画像データセットに基づいて,ユーザプロンプトを書き換える新たなアプローチを提案する。 我々の書き換えモデルは、ユーザプロンプトの表現力とアライメントを意図した視覚的出力で向上させる。 実験の結果,新しいオフライン評価手法とオンラインテストで実証されたように,本手法がベースラインアプローチよりも優れていることが示された。 私たちのコードとデータセットはhttps://github.com/zzjchen/Tailored-Visions.comで公開されています。

Despite significant progress in the field, it is still challenging to create personalized visual representations that align closely with the desires and preferences of individual users. This process requires users to articulate their ideas in words that are both comprehensible to the models and accurately capture their vision, posing difficulties for many users. In this paper, we tackle this challenge by leveraging historical user interactions with the system to enhance user prompts. We propose a novel approach that involves rewriting user prompts based on a newly collected large-scale text-to-image dataset with over 300k prompts from 3115 users. Our rewriting model enhances the expressiveness and alignment of user prompts with their intended visual outputs. Experimental results demonstrate the superiority of our methods over baseline approaches, as evidenced in our new offline evaluation method and online tests. Our code and dataset are available at https://github.com/zzjchen/Tailored-Visions.
翻訳日:2024-04-10 02:35:24 公開日:2024-04-07
# UniPAD: 自動運転のためのユニバーサル事前訓練パラダイム

UniPAD: A Universal Pre-training Paradigm for Autonomous Driving ( http://arxiv.org/abs/2310.08370v2 )

ライセンス: Link先を確認
Honghui Yang, Sha Zhang, Di Huang, Xiaoyang Wu, Haoyi Zhu, Tong He, Shixiang Tang, Hengshuang Zhao, Qibo Qiu, Binbin Lin, Xiaofei He, Wanli Ouyang, (参考訳) 自律運転の文脈では、効果的な特徴学習の重要性が広く認識されている。 従来の3次元自己監督型事前学習法は広く成功したが、ほとんどの手法は元々2次元画像用に設計されたアイデアに従う。 本稿では,3次元ボリューム微分可能レンダリングを適用した新しい自己教師型学習パラダイムUniPADを提案する。 UniPADは3次元空間を暗黙的に符号化し、連続した3次元形状の構造の再構築と、それらの2次元投影の複雑な外観特性を促進する。 本手法の柔軟性により、2Dフレームワークと3Dフレームワークのシームレスな統合が可能となり、シーンのより包括的な理解が可能となった。 様々な下流3Dタスクに対して広範な実験を行うことで,UniPADの有効性と有効性を示す。 本手法はライダーカメラ,カメラカメラ,ライダーカメラベースラインを9.1,7.7,6.9 NDSで大幅に改善する。 特に,3次元オブジェクト検出のための73.2 NDS,nuScenes検証セット上の3次元セマンティックセマンティックセグメンテーションのための79.4 mIoUを達成し,従来の手法と比較した結果を得た。 コードはhttps://github.com/Nightmare-n/UniPAD.comで入手できる。

In the context of autonomous driving, the significance of effective feature learning is widely acknowledged. While conventional 3D self-supervised pre-training methods have shown widespread success, most methods follow the ideas originally designed for 2D images. In this paper, we present UniPAD, a novel self-supervised learning paradigm applying 3D volumetric differentiable rendering. UniPAD implicitly encodes 3D space, facilitating the reconstruction of continuous 3D shape structures and the intricate appearance characteristics of their 2D projections. The flexibility of our method enables seamless integration into both 2D and 3D frameworks, enabling a more holistic comprehension of the scenes. We manifest the feasibility and effectiveness of UniPAD by conducting extensive experiments on various downstream 3D tasks. Our method significantly improves lidar-, camera-, and lidar-camera-based baseline by 9.1, 7.7, and 6.9 NDS, respectively. Notably, our pre-training pipeline achieves 73.2 NDS for 3D object detection and 79.4 mIoU for 3D semantic segmentation on the nuScenes validation set, achieving state-of-the-art results in comparison with previous methods. The code will be available at https://github.com/Nightmare-n/UniPAD.
翻訳日:2024-04-10 02:35:24 公開日:2024-04-07
# ReLU-FNNの局所リプシッツ定数計算:精度検証による上界計算

Local Lipschitz Constant Computation of ReLU-FNNs: Upper Bound Computation with Exactness Verification ( http://arxiv.org/abs/2310.11104v2 )

ライセンス: Link先を確認
Yoshio Ebihara, Xin Dai, Victor Magron, Dimitri Peaucelle, Sophie Tarbouriech, (参考訳) 本稿では, フィードフォワードニューラルネットワーク(FNN)の局所リプシッツ定数の補正線形単位(ReLU)の活性化関数を用いた計算について述べる。 目標入力に対するFNNの局所リプシッツ定数は、その信頼性を定量的に評価するための妥当な尺度である。 ReLUの挙動を捉える乗算器を用いた標準的な手順に従うことにより、まず局所リプシッツ定数の上界計算問題を半定値プログラミング問題(SDP)に還元する。 本稿では,ReLUの挙動を正確に捉えるための共正乗算器を新たに導入する。 次に、上界計算におけるSDPの双対性を考慮することにより、計算された上界の正確性を決定するための実行可能なテストが導出される。 しかし、これらのSDPは数百のReLUを持つ実用的なFNNにとって難易度が高い。 この問題に対処するために、ターゲット入力の近傍で入力出力特性が元のFNNと同一である縮小順序モデルを構築する方法を提案する。 実用FNNの数値例を用いて,モデルの縮小と精度検証手法の有効性を論じる。

This paper is concerned with the computation of the local Lipschitz constant of feedforward neural networks (FNNs) with activation functions being rectified linear units (ReLUs). The local Lipschitz constant of an FNN for a target input is a reasonable measure for its quantitative evaluation of the reliability. By following a standard procedure using multipliers that capture the behavior of ReLUs,we first reduce the upper bound computation problem of the local Lipschitz constant into a semidefinite programming problem (SDP). Here we newly introduce copositive multipliers to capture the ReLU behavior accurately. Then, by considering the dual of the SDP for the upper bound computation, we second derive a viable test to conclude the exactness of the computed upper bound. However, these SDPs are intractable for practical FNNs with hundreds of ReLUs. To address this issue, we further propose a method to construct a reduced order model whose input-output property is identical to the original FNN over a neighborhood of the target input. We finally illustrate the effectiveness of the model reduction and exactness verification methods with numerical examples of practical FNNs.
翻訳日:2024-04-10 02:35:24 公開日:2024-04-07
# 量子符号の秘密でない第4次パラメータ

The Not-So-Secret Fourth Parameter of Quantum Codes ( http://arxiv.org/abs/2310.17652v2 )

ライセンス: Link先を確認
Eric Kubischta, Ian Teixeira, (参考訳) 逆ゲートの群は量子コードの不変量である。 このパラメータに関して、非加法符号は、安定化符号よりも厳密に、しばしば大きなマージンで優れた性能を発揮することを実証する。 我々は、一般化位相ゲートを実装した置換不変な多ビット符号に対応するスピン符号を構築する。 特に、より少ないキュービットで、安定器符号よりも高い最小距離で、トランスバーサル$T $ゲートを実装するコードを構築します。

The group of transversal gates is an invariant of quantum codes. With respect to this parameter, we demonstrate that non-additive codes can strictly outperform stabilizer codes, and often by large margins. We do this by constructing spin codes that corresponds to permutationally invariant multiqubit codes implementing generalized phase gates transversally. Of particular note, we construct codes that implement a transversal $ T $ gate using fewer qubits and with a better minimum distance than is possible with any stabilizer code.
翻訳日:2024-04-10 02:35:24 公開日:2024-04-07
# UWFormer:半監督型マルチスケール変圧器による水中画像強調

UWFormer: Underwater Image Enhancement via a Semi-Supervised Multi-Scale Transformer ( http://arxiv.org/abs/2310.20210v3 )

ライセンス: Link先を確認
Weiwen Chen, Yingtie Lei, Shenghong Luo, Ziyang Zhou, Mingxian Li, Chi-Man Pun, (参考訳) 水中画像は、光、水、物体の複雑な複雑な相互作用のため、品質が悪く、色バランスが歪んだり、コントラストが低かったりすることが多い。 従来の水中強化技術には大きな貢献があったが、さらなる改善を求める問題がいくつかある。 (i)現在のディープラーニング手法は、マルチスケールの強化を欠いた畳み込みニューラルネットワーク(CNN)に依存しており、グローバルな知覚場も制限されている。 (II)実世界の水中データセットの不足は大きな課題となり、合成画像ペアの利用が過度に適合する可能性がある。 上記の問題に対処するため, 半教師付き学習による複数周波数画像の強調を行うUWFormerと呼ばれるマルチスケールトランスフォーマーネットワークを導入し, 低周波数強調のための非線形周波数認識アテンション機構とマルチスケールフュージョンフィードフォワードネットワークを提案する。 さらに,水中における半教師付き訓練戦略を導入し,疑似ラベルを生成するためのサブアキュースパーセプティカルロス関数を提案する。 完全参照型および非参照型水中ベンチマークを用いた実験により,本手法は,量および視覚的品質の両面で最先端の手法より優れていることが示された。

Underwater images often exhibit poor quality, distorted color balance and low contrast due to the complex and intricate interplay of light, water, and objects. Despite the significant contributions of previous underwater enhancement techniques, there exist several problems that demand further improvement: (i) The current deep learning methods rely on Convolutional Neural Networks (CNNs) that lack the multi-scale enhancement, and global perception field is also limited. (ii) The scarcity of paired real-world underwater datasets poses a significant challenge, and the utilization of synthetic image pairs could lead to overfitting. To address the aforementioned problems, this paper introduces a Multi-scale Transformer-based Network called UWFormer for enhancing images at multiple frequencies via semi-supervised learning, in which we propose a Nonlinear Frequency-aware Attention mechanism and a Multi-Scale Fusion Feed-forward Network for low-frequency enhancement. Besides, we introduce a special underwater semi-supervised training strategy, where we propose a Subaqueous Perceptual Loss function to generate reliable pseudo labels. Experiments using full-reference and non-reference underwater benchmarks demonstrate that our method outperforms state-of-the-art methods in terms of both quantity and visual quality.
翻訳日:2024-04-10 02:25:39 公開日:2024-04-07
# 時空間超解像のための演算子学習フレームワーク

An Operator Learning Framework for Spatiotemporal Super-resolution of Scientific Simulations ( http://arxiv.org/abs/2311.02328v2 )

ライセンス: Link先を確認
Valentin Duruisseaux, Amit Chakraborty, (参考訳) 多くの文脈において、偏微分方程式に対する高分解能な解は、小さな時空間スケールで起こる忠実に不可欠な力学を捉えるために必要であるが、これらの解は計算資源が限られているため、従来の方法を使用するのは非常に困難で遅い。 これらの計算限界を回避するための最近の方向は、より効率的に得られる低分解能シミュレーションから高分解能数値解を再構築するために、超解法に機械学習技術を使用することである。 提案手法であるスーパーレゾリューション演算子ネットワーク(SROpNet)は、演算子学習問題として超解をフレーム化し、既存のアーキテクチャからインスピレーションを得て、低分解能近似からパラメトリック微分方程式に対する解の連続表現を学習し、任意の所で評価することができる。 また、低分解能近似が提供される(一定数の)時空間センサの位置に制限が課せられず、既存の超分解能アプローチが不適な、実際に発生する幅広い問題のスペクトルを考慮できる。

In numerous contexts, high-resolution solutions to partial differential equations are required to capture faithfully essential dynamics which occur at small spatiotemporal scales, but these solutions can be very difficult and slow to obtain using traditional methods due to limited computational resources. A recent direction to circumvent these computational limitations is to use machine learning techniques for super-resolution, to reconstruct high-resolution numerical solutions from low-resolution simulations which can be obtained more efficiently. The proposed approach, the Super Resolution Operator Network (SROpNet), frames super-resolution as an operator learning problem and draws inspiration from existing architectures to learn continuous representations of solutions to parametric differential equations from low-resolution approximations, which can then be evaluated at any desired location. In addition, no restrictions are imposed on the locations of (the fixed number of) spatiotemporal sensors at which the low-resolution approximations are provided, thereby enabling the consideration of a broader spectrum of problems arising in practice, for which many existing super-resolution approaches are not well-suited.
翻訳日:2024-04-10 02:25:39 公開日:2024-04-07
# シープの衣服の狼:一般化されたネストド・ジェイルブレイク・プラットは、大きな言語モデルを簡単に作成できる

A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily ( http://arxiv.org/abs/2311.08268v4 )

ライセンス: Link先を確認
Peng Ding, Jun Kuang, Dan Ma, Xuezhi Cao, Yunsen Xian, Jiajun Chen, Shujian Huang, (参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は、有用で安全な応答を提供するように設計されている。 しかし、"jailbreaks"と呼ばれる敵のプロンプトは、LLMが潜在的に有害な内容を生成するため、保護を回避することができる。 ジェイルブレイクのプロンプトを探索することは、LSMの弱点を明らかにするのに役立ちます。 残念ながら、既存のjailbreakメソッドは複雑な手動設計に悩まされるか、他のホワイトボックスモデルの最適化を必要とする。 本稿では,(1)プロンプトリライトと(2)シナリオネスティングの2つの側面にジェイルブレイク即時攻撃を一般化する。 そこで本研究では,LDM自体を利用して効果的なジェイルブレイクプロンプトを生成する自動フレームワークReNeLLMを提案する。 大規模な実験により、ReNeLLMは攻撃成功率を大幅に改善し、既存のベースラインと比較して時間コストを大幅に削減することが示された。 また,LLMの保護における現行の防御方法の欠如も明らかにした。 最後に、迅速な実行優先の観点からLLMの防衛失敗を分析し、対応する防衛戦略を提案する。 我々の研究が学術コミュニティとLLM開発者の両方を、より安全でより規制されたLLMの提供に向けて触媒化できることを願っています。 コードはhttps://github.com/NJUNLP/ReNeLLMで入手できる。

Large Language Models (LLMs), such as ChatGPT and GPT-4, are designed to provide useful and safe responses. However, adversarial prompts known as 'jailbreaks' can circumvent safeguards, leading LLMs to generate potentially harmful content. Exploring jailbreak prompts can help to better reveal the weaknesses of LLMs and further steer us to secure them. Unfortunately, existing jailbreak methods either suffer from intricate manual design or require optimization on other white-box models, which compromises either generalization or efficiency. In this paper, we generalize jailbreak prompt attacks into two aspects: (1) Prompt Rewriting and (2) Scenario Nesting. Based on this, we propose ReNeLLM, an automatic framework that leverages LLMs themselves to generate effective jailbreak prompts. Extensive experiments demonstrate that ReNeLLM significantly improves the attack success rate while greatly reducing the time cost compared to existing baselines. Our study also reveals the inadequacy of current defense methods in safeguarding LLMs. Finally, we analyze the failure of LLMs defense from the perspective of prompt execution priority, and propose corresponding defense strategies. We hope that our research can catalyze both the academic community and LLMs developers towards the provision of safer and more regulated LLMs. The code is available at https://github.com/NJUNLP/ReNeLLM.
翻訳日:2024-04-10 02:25:39 公開日:2024-04-07
# Mind's Mirror: 自己評価能力の蒸留と大規模言語モデルからの理解

Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models ( http://arxiv.org/abs/2311.09214v3 )

ライセンス: Link先を確認
Weize Liu, Guocong Li, Kai Zhang, Bang Du, Qiyuan Chen, Xuming Hu, Hongxia Xu, Jintai Chen, Jian Wu, (参考訳) 大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。 しかし、これらのモデルの大規模かつ計算的な要求は、資源制約のある環境での実践的展開を考えると、非常に困難な課題である。 チェーン・オブ・ソート (CoT) 蒸留のような技術は, LLMを小言語モデル (SLM) に蒸留する可能性を示しているが, 蒸留したSLMがLLMの欠点や幻覚を継承するリスクがある。 まず, LLM から SLM への自己評価能力を蒸留する方法を提案し, 欠陥のある推論や LLM から受け継いだ幻覚の悪影響を軽減することを目的とした。 第2に,複数の異なるCoTと自己評価出力を組み込むことで,より包括的で堅牢な知識のSLMへの伝達を保証することで,より包括的な思考の蒸留を提唱する。 3つのNLPベンチマーク実験により, 蒸留SLMの性能は大幅に向上し, 資源制約環境下でより効率的かつ効率的なSLMの開発に向けた新たな視点が得られた。

Large language models (LLMs) have achieved remarkable advancements in natural language processing. However, the massive scale and computational demands of these models present formidable challenges when considering their practical deployment in resource-constrained environments. While techniques such as chain-of-thought (CoT) distillation have displayed promise in distilling LLMs into small language models (SLMs), there is a risk that distilled SLMs may still inherit flawed reasoning and hallucinations from LLMs. To address these issues, we propose a twofold methodology: First, we introduce a novel method for distilling the self-evaluation capability from LLMs into SLMs, aiming to mitigate the adverse effects of flawed reasoning and hallucinations inherited from LLMs. Second, we advocate for distilling more comprehensive thinking by incorporating multiple distinct CoTs and self-evaluation outputs, to ensure a more thorough and robust knowledge transfer into SLMs. Experiments on three NLP benchmarks demonstrate that our method significantly improves the performance of distilled SLMs, offering a new perspective for developing more effective and efficient SLMs in resource-constrained environments.
翻訳日:2024-04-10 02:15:45 公開日:2024-04-07
# 音声データセットのためのダイアクリティカルティクスの自動復元

Automatic Restoration of Diacritics for Speech Data Sets ( http://arxiv.org/abs/2311.10771v2 )

ライセンス: Link先を確認
Sara Shatnawi, Sawsan Alqahtani, Hanan Aldarmaki, (参考訳) 自動テキストベースダイアクリティカル復元モデルは、音声言語におけるドメインシフトとスタイルシフトの結果、音声書き起こしに適用した場合、一般的に高いダイアクリティカルエラー率を有する。 本研究では, パラレル音声を用いた音声データに適用することで, 自動発音復元の性能向上の可能性を検討する。 特に、比較的少量のアラビア語音声データに基づいて微調整された事前学習されたWhisper ASRモデルを用いて、音声発話の荒々しい発音文を生成する。 提案するフレームワークは,テキストのみのベースラインに比べて,ダイアクリティカルな復元性能を一貫して向上させる。 本研究は, 音声データセットに対するテキストベースダイアクリティック復元モデルの不適切さを強調し, 音声ベースダイアクリティック復元のための新しいベースラインを提供する。

Automatic text-based diacritic restoration models generally have high diacritic error rates when applied to speech transcripts as a result of domain and style shifts in spoken language. In this work, we explore the possibility of improving the performance of automatic diacritic restoration when applied to speech data by utilizing parallel spoken utterances. In particular, we use the pre-trained Whisper ASR model fine-tuned on relatively small amounts of diacritized Arabic speech data to produce rough diacritized transcripts for the speech utterances, which we then use as an additional input for diacritic restoration models. The proposed framework consistently improves diacritic restoration performance compared to text-only baselines. Our results highlight the inadequacy of current text-based diacritic restoration models for speech data sets and provide a new baseline for speech-based diacritic restoration.
翻訳日:2024-04-10 02:15:45 公開日:2024-04-07
# データ駆動型プロジェクトプランニング:スケジューリングに有利な統合型ネットワーク学習と制約緩和アプローチ

Data-driven project planning: An integrated network learning and constraint relaxation approach in favor of scheduling ( http://arxiv.org/abs/2311.11542v2 )

ライセンス: Link先を確認
Izack Cohen, (参考訳) 私たちの焦点は、ビジネスプロセス、すなわち、私たちの時代の経済的な要因として現れつつあるプロジェクトに焦点を当てています。 詳細な計画を必要としない日々の運用プロセスとは異なり、プロジェクトは、サブプロジェクトや関連するプロジェクトや組織間でリソースを調整するための計画とリソース制約のあるスケジューリングを必要とします。 プロジェクト計画を担当するプランナーは、実行すべきアクティビティのセットを選択し、優先順位の制約を決定し、一時的なプロジェクト制約に従ってそれらをスケジュールする必要があります。 インフラ構築や情報システム開発プロジェクトといった,プロジェクトのクラスを対象としたデータ駆動型プロジェクト計画手法を提案する。 プロジェクトネットワークは、まず歴史的記録から学習される。 このネットワークは個々のプロジェクトに組み込まれた時間的制約を緩和し、計画とスケジューリングの柔軟性を活用できる場所を明らかにする。 そして、選択しなければならない複数のプロジェクト計画変動を含むネットワークを、決定ルールと頻繁な経路を識別することによって強化する。 プランナーはプロジェクトネットワークに依存することができます。 1)新たなプロジェクト計画を形成するようなプロジェクトのバリエーションを復号し、 2) 資源制約のあるプロジェクトスケジューリング手順を適用してプロジェクトのスケジュールとリソース割り当てを決定する。 2つの実世界のプロジェクトデータセットを用いて、提案手法が計画立案者に対して、プロジェクト計画とスケジュールを調整するための柔軟性(実際のプロジェクトのクリティカルパスを最大26%削減する)を提供することを示した。 我々は,提案手法が,自動データ駆動プロジェクト計画に向けた意思決定を支援する上で重要な役割を果たすと考えている。

Our focus is on projects, i.e., business processes, which are emerging as the economic drivers of our times. Differently from day-to-day operational processes that do not require detailed planning, a project requires planning and resource-constrained scheduling for coordinating resources across sub- or related projects and organizations. A planner in charge of project planning has to select a set of activities to perform, determine their precedence constraints, and schedule them according to temporal project constraints. We suggest a data-driven project planning approach for classes of projects such as infrastructure building and information systems development projects. A project network is first learned from historical records. The discovered network relaxes temporal constraints embedded in individual projects, thus uncovering where planning and scheduling flexibility can be exploited for greater benefit. Then, the network, which contains multiple project plan variations, from which one has to be selected, is enriched by identifying decision rules and frequent paths. The planner can rely on the project network for: 1) decoding a project variation such that it forms a new project plan, and 2) applying resource-constrained project scheduling procedures to determine the project's schedule and resource allocation. Using two real-world project datasets, we show that the suggested approach may provide the planner with significant flexibility (up to a 26% reduction of the critical path of a real project) to adjust the project plan and schedule. We believe that the proposed approach can play an important part in supporting decision making towards automated data-driven project planning.
翻訳日:2024-04-10 02:15:45 公開日:2024-04-07
# GS-SLAM:3Dガウススプラッティングによる高解像度視力SLAM

GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting ( http://arxiv.org/abs/2311.11700v4 )

ライセンス: Link先を確認
Chi Yan, Delin Qu, Dan Xu, Bin Zhao, Zhigang Wang, Dong Wang, Xuelong Li, (参考訳) 本稿では,まず3次元ガウス表現をSLAMシステムで利用した \textbf{GS-SLAM} を紹介する。 効率と精度のバランスが良くなります。 ニューラル暗黙表現を用いた最近のSLAM法と比較して,本手法では,マップ最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプラッティングレンダリングパイプラインを利用する。 具体的には,新たに観測されたシーン形状を効率的に再構築し,これまで観測された領域のマッピングを改善するために,ノイズの多い3Dガウスを新たにあるいは削除する適応展開戦略を提案する。 この戦略は、既存のメソッドで静的オブジェクトを合成するのではなく、3Dガウス表現を拡張してシーン全体を再構築することが不可欠である。 さらに、ポーズトラッキングプロセスでは、カメラのポーズを最適化する信頼性の高い3次元ガウス表現を選択するために効果的な粗大化手法が設計され、ランタイムの削減とロバストな推定が可能となる。 提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。 プロジェクトページ: https://gs-slam.github.io/

In this paper, we introduce \textbf{GS-SLAM} that first utilizes 3D Gaussian representation in the Simultaneous Localization and Mapping (SLAM) system. It facilitates a better balance between efficiency and accuracy. Compared to recent SLAM methods employing neural implicit representations, our method utilizes a real-time differentiable splatting rendering pipeline that offers significant speedup to map optimization and RGB-D rendering. Specifically, we propose an adaptive expansion strategy that adds new or deletes noisy 3D Gaussians in order to efficiently reconstruct new observed scene geometry and improve the mapping of previously observed areas. This strategy is essential to extend 3D Gaussian representation to reconstruct the whole scene rather than synthesize a static object in existing methods. Moreover, in the pose tracking process, an effective coarse-to-fine technique is designed to select reliable 3D Gaussian representations to optimize camera pose, resulting in runtime reduction and robust estimation. Our method achieves competitive performance compared with existing state-of-the-art real-time methods on the Replica, TUM-RGBD datasets. Project page: https://gs-slam.github.io/.
翻訳日:2024-04-10 02:15:45 公開日:2024-04-07
# GP-NeRF:コンテキスト対応3次元シーン理解のための一般化知覚NeRF

GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding ( http://arxiv.org/abs/2311.11863v2 )

ライセンス: Link先を確認
Hao Li, Dingwen Zhang, Yalun Dai, Nian Liu, Lechao Cheng, Jingfeng Li, Jingdong Wang, Junwei Han, (参考訳) シーン理解と表現のためにNeRFを下流の知覚タスクに適用することは、ますます人気が高まっている。 既存のほとんどのメソッドは意味的予測を、意味的NeRFを構築するために、追加のレンダリングタスクである \textit{i.e.} として扱う。 しかし、レンダリングされた画像の文脈情報を考慮せずに1ピクセルあたりのセマンティック・インスタンス・ラベルを描画することで、これらの手法は通常、不明瞭な境界セグメンテーションとオブジェクト内の画素の異常セグメンテーションに悩まされる。 この問題を解決するために,広範に使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に連携させる新しいパイプラインであるGeneralized Perception NeRF (GP-NeRF)を提案する。 この目的を達成するために,両フィールドの連成ボリュームレンダリングを容易にするため,新しいビューを共同で行うために,放射能を集約するトランスフォーマーとセマンティック埋め込みフィールドを導入する。 さらに,セマンティック蒸留損失(Semantic Distill Loss)とDepth-Guided Semantic Distill Loss(Depth-Guided Semantic Distill Loss)という2つの自己蒸留機構を提案する。 評価では,2つの知覚課題(意味とインスタンスのセグメンテーション)の下で,合成と実世界の両方のデータセットを用いて実験的な比較を行う。 特に,本手法は,一般化セマンティックセグメンテーション,微調整セマンティックセグメンテーション,インスタンスセグメンテーションにおいて,SOTAアプローチを6.94 %,11.76 %,8.47 %で上回っている。

Applying NeRF to downstream perception tasks for scene understanding and representation is becoming increasingly popular. Most existing methods treat semantic prediction as an additional rendering task, \textit{i.e.}, the "label rendering" task, to build semantic NeRFs. However, by rendering semantic/instance labels per pixel without considering the contextual information of the rendered image, these methods usually suffer from unclear boundary segmentation and abnormal segmentation of pixels within an object. To solve this problem, we propose Generalized Perception NeRF (GP-NeRF), a novel pipeline that makes the widely used segmentation model and NeRF work compatibly under a unified framework, for facilitating context-aware 3D scene perception. To accomplish this goal, we introduce transformers to aggregate radiance as well as semantic embedding fields jointly for novel views and facilitate the joint volumetric rendering of both fields. In addition, we propose two self-distillation mechanisms, i.e., the Semantic Distill Loss and the Depth-Guided Semantic Distill Loss, to enhance the discrimination and quality of the semantic field and the maintenance of geometric consistency. In evaluation, we conduct experimental comparisons under two perception tasks (\textit{i.e.} semantic and instance segmentation) using both synthetic and real-world datasets. Notably, our method outperforms SOTA approaches by 6.94\%, 11.76\%, and 8.47\% on generalized semantic segmentation, finetuning semantic segmentation, and instance segmentation, respectively.
翻訳日:2024-04-10 02:15:45 公開日:2024-04-07
# HiPose:RGB-D 6DoFオブジェクトポス推定のための階層的二元曲面符号化と対応プルーニング

HiPose: Hierarchical Binary Surface Encoding and Correspondence Pruning for RGB-D 6DoF Object Pose Estimation ( http://arxiv.org/abs/2311.12588v3 )

ライセンス: Link先を確認
Yongliang Lin, Yongzhi Su, Praveen Nathan, Sandeep Inuganti, Yan Di, Martin Sundermeyer, Fabian Manhardt, Didier Stricker, Jason Rambach, Yu Zhang, (参考訳) 本研究では,1枚のRGB-D画像から6DoFオブジェクトのポーズ推定を行う手法を提案する。 既存のデータ駆動手法の多くは素晴らしいパフォーマンスを達成するが、レンダリングベースの洗練アプローチに依存しているため、時間がかかる傾向にある。 この制限を回避するため,階層的二元曲面符号化を用いて3D-3D対応を粗い方法で確立するHiPoseを提案する。 従来の高密度対応法とは異なり, 点対面マッチングを用いて対応面を推定し, 段階的に外接点を除去し, 対応点となるまで表面を反復的に収縮する。 LM-O, YCB-V, T-Lessのベンチマーク実験により, 本手法はすべての改良フリー手法を超越し, 高価な改良ベース手法と同等であることが示された。 重要な点として,本手法は計算効率が高く,高精度なリアルタイムクリティカルアプリケーションを実現する。

In this work, we present a novel dense-correspondence method for 6DoF object pose estimation from a single RGB-D image. While many existing data-driven methods achieve impressive performance, they tend to be time-consuming due to their reliance on rendering-based refinement approaches. To circumvent this limitation, we present HiPose, which establishes 3D-3D correspondences in a coarse-to-fine manner with a hierarchical binary surface encoding. Unlike previous dense-correspondence methods, we estimate the correspondence surface by employing point-to-surface matching and iteratively constricting the surface until it becomes a correspondence point while gradually removing outliers. Extensive experiments on public benchmarks LM-O, YCB-V, and T-Less demonstrate that our method surpasses all refinement-free methods and is even on par with expensive refinement-based approaches. Crucially, our approach is computationally efficient and enables real-time critical applications with high accuracy requirements.
翻訳日:2024-04-10 02:15:45 公開日:2024-04-07
# Priv Image:Semantic-Aware Pretrainingを用いた拡散モデルを用いた差分プライベート合成画像生成

PrivImage: Differentially Private Synthetic Image Generation using Diffusion Models with Semantic-Aware Pretraining ( http://arxiv.org/abs/2311.12850v2 )

ライセンス: Link先を確認
Kecen Li, Chen Gong, Zhixiang Li, Yuzhong Zhao, Xinwen Hou, Tianhao Wang, (参考訳) 差分プライバシー(DP)画像データ合成(DP)は、DP技術を活用して、機密データを置き換える合成データを生成する。 従来の手法では、生成モデルの高度な技術と、公開データセット上で事前トレーニングを行い、例外的なDP画像データを生成するが、不安定なトレーニングや膨大な計算リソース要求の問題がある。 本稿では,DP 画像合成手法 PRIVIMAGE を提案する。 PRIVIMAGEはまず、公開データセットを使用してセマンティッククエリ関数を確立する。 そして、この関数はセンシティブなデータセットのセマンティックな分布の問い合わせを支援し、事前トレーニングのための類似したセマンティックスを用いて、パブリックデータセットからデータの選択を容易にする。 最後に,選択したデータを用いて画像生成モデルを事前学習し,そのデータをDP-SGD(differially Private Stochastic Gradient Descent)を用いてセンシティブなデータセット上で微調整する。 PRIVIMAGE は,DP-SGD トレーニング中の勾配の雑音を低減し,学習安定性の向上を図る。 大規模な実験では、PRIVIMAGEは事前学習に1%の公開データセットしか使用せず、生成モデルのパラメータの7.6%しか使用していないのに対して、最先端の手法では優れた合成性能を示し、より多くの計算資源を保存している。 PRIVIMAGEは平均30.1%低いFIDと12.6%高い分類精度を達成した。 レプリケーションパッケージとデータセットはオンラインでアクセスすることができる。

Differential Privacy (DP) image data synthesis, which leverages the DP technique to generate synthetic data to replace the sensitive data, allowing organizations to share and utilize synthetic images without privacy concerns. Previous methods incorporate the advanced techniques of generative models and pre-training on a public dataset to produce exceptional DP image data, but suffer from problems of unstable training and massive computational resource demands. This paper proposes a novel DP image synthesis method, termed PRIVIMAGE, which meticulously selects pre-training data, promoting the efficient creation of DP datasets with high fidelity and utility. PRIVIMAGE first establishes a semantic query function using a public dataset. Then, this function assists in querying the semantic distribution of the sensitive dataset, facilitating the selection of data from the public dataset with analogous semantics for pre-training. Finally, we pre-train an image generative model using the selected data and then fine-tune this model on the sensitive dataset using Differentially Private Stochastic Gradient Descent (DP-SGD). PRIVIMAGE allows us to train a lightly parameterized generative model, reducing the noise in the gradient during DP-SGD training and enhancing training stability. Extensive experiments demonstrate that PRIVIMAGE uses only 1% of the public dataset for pre-training and 7.6% of the parameters in the generative model compared to the state-of-the-art method, whereas achieves superior synthetic performance and conserves more computational resources. On average, PRIVIMAGE achieves 30.1% lower FID and 12.6% higher Classification Accuracy than the state-of-the-art method. The replication package and datasets can be accessed online.
翻訳日:2024-04-10 02:15:45 公開日:2024-04-07
# EVCap: オープンワールド理解のための外部ビジュアルネームメモリを備えた検索拡張イメージキャプション

EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension ( http://arxiv.org/abs/2311.15879v2 )

ライセンス: Link先を確認
Jiaxuan Li, Duc Minh Vo, Akihiro Sugimoto, Hideki Nakayama, (参考訳) 大規模言語モデル(LLM)に基づく画像キャプションは、トレーニングデータで明示的に観察されていないオブジェクトを記述する能力を持つが、新しいオブジェクトは頻繁に発生し、オープンワールドの理解のために最新のオブジェクト知識を維持する必要がある。 本稿では,大量のデータやネットワークパラメータのスケールアップに頼る代わりに,外部視覚名メモリ(EVCap)から取得したオブジェクト名をLCMに付加する高効率な画像キャプション手法を提案する。 オブジェクトのビジュアルと名前を使って、絶え間なく変化するオブジェクト知識メモリを構築します。 (i)最小限のコストでメモリを更新し、 (II)軽量かつ高速な列車モデルを用いて,検索対象名によるLLMの強化を図った。 我々のモデルはCOCOデータセットでのみトレーニングされており、追加の微調整や再トレーニングを必要とせず、ドメイン外への適応が可能である。 実験により, EVCapは3.97Mのトレーニング可能なパラメータしか持たないが, 凍結事前学習型LCMを用いた他の手法と比較して, 優れた性能を示した。 その性能は、広範囲な訓練を必要とする専門のSOTAと競合する。

Large language models (LLMs)-based image captioning has the capability of describing objects not explicitly observed in training data; yet novel objects occur frequently, necessitating the requirement of sustaining up-to-date object knowledge for open-world comprehension. Instead of relying on large amounts of data and/or scaling up network parameters, we introduce a highly effective retrieval-augmented image captioning method that prompts LLMs with object names retrieved from External Visual--name memory (EVCap). We build ever-changing object knowledge memory using objects' visuals and names, enabling us to (i) update the memory at a minimal cost and (ii) effortlessly augment LLMs with retrieved object names by utilizing a lightweight and fast-to-train model. Our model, which was trained only on the COCO dataset, can adapt to out-of-domain without requiring additional fine-tuning or re-training. Our experiments conducted on benchmarks and synthetic commonsense-violating data show that EVCap, with only 3.97M trainable parameters, exhibits superior performance compared to other methods based on frozen pre-trained LLMs. Its performance is also competitive to specialist SOTAs that require extensive training.
翻訳日:2024-04-10 02:06:00 公開日:2024-04-07
# 時空間擬似異常生成によるビデオ異常検出 : 統一的アプローチ

Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach ( http://arxiv.org/abs/2311.16514v2 )

ライセンス: Link先を確認
Ayush K. Rai, Tarun Krishna, Feiyan Hu, Alexandru Drimbarean, Kevin McGuinness, Alan F. Smeaton, Noel E. O'Connor, (参考訳) ビデオ異常検出(英語: Video Anomaly Detection, VAD)は、通常、一級分類(OCC)問題として定式化されるオープンセットの認識タスクである。 近年の研究では,物体の異常や動作速度に関して,通常のデータのみを用いて擬似異常 (PA) を作成することや,訓練中の自己エンコーダ (AE) を用いた再構成モデルにおいて,異常に関する事前情報を注入するための実世界の異常を強く仮定する研究が行われている。 本研究では、事前学習した潜時拡散モデルを用いて画像のマスクアウト領域を塗布し、ミックスアップを用いて光流を摂動させ、データ中の時空間歪みをエミュレートすることで、時空間PAを生成する新しい手法を提案する。 さらに,OCC設定下における実世界の異常を検出するための簡易な統合フレームワークを提案する。 Ped2, Avenue, ShanghaiTech, UBnormalの4つのVADベンチマークデータセットに対する大規模な実験により, 提案手法はOCC設定下での既存のPAs生成および再構築手法と同等に動作することを示した。 分析では,これらのデータセット間でのPAの転送可能性や一般化についても検討し,PAを通して現実世界の異常を識別することによって,貴重な洞察を提供する。

Video Anomaly Detection (VAD) is an open-set recognition task, which is usually formulated as a one-class classification (OCC) problem, where training data is comprised of videos with normal instances while test data contains both normal and anomalous instances. Recent works have investigated the creation of pseudo-anomalies (PAs) using only the normal data and making strong assumptions about real-world anomalies with regards to abnormality of objects and speed of motion to inject prior information about anomalies in an autoencoder (AE) based reconstruction model during training. This work proposes a novel method for generating generic spatio-temporal PAs by inpainting a masked out region of an image using a pre-trained Latent Diffusion Model and further perturbing the optical flow using mixup to emulate spatio-temporal distortions in the data. In addition, we present a simple unified framework to detect real-world anomalies under the OCC setting by learning three types of anomaly indicators, namely reconstruction quality, temporal irregularity and semantic inconsistency. Extensive experiments on four VAD benchmark datasets namely Ped2, Avenue, ShanghaiTech and UBnormal demonstrate that our method performs on par with other existing state-of-the-art PAs generation and reconstruction based methods under the OCC setting. Our analysis also examines the transferability and generalisation of PAs across these datasets, offering valuable insights by identifying real-world anomalies through PAs.
翻訳日:2024-04-10 02:06:00 公開日:2024-04-07
# OCGEC:DNNバックドア検出のための1クラスグラフ埋め込み分類

OCGEC: One-class Graph Embedding Classification for DNN Backdoor Detection ( http://arxiv.org/abs/2312.01585v2 )

ライセンス: Link先を確認
Haoyu Jiang, Haiyang Yu, Nan Li, Ping Yi, (参考訳) ディープニューラルネットワーク(DNN)は、バックドア攻撃に対する脆弱性が発見され、ミッションクリティカルなアプリケーションへのデプロイに対するセキュリティ上の懸念が高まっている。 バックドア攻撃を検出するには様々な方法があるが、それらはすべて、対象の攻撃を検知する特定の仮定を定めており、トレーニングのためには、同じおよび膨大な数のクリーンおよびバックドアサンプルを必要とする。 本研究では,モデルレベルのバックドア検出にGNNを用いた一級グラフ埋め込み分類(OCGEC)と呼ばれる新しい一級分類フレームワークを提案する。 まず、少数のクリーンなデータセットから、何千もの小さなモデルを生のデータセットとしてトレーニングします。 その後、モデルの構造的詳細と重み特徴をグラフデータに変換するための創発的なモデル・ツー・グラフ法を設計する。 次に、生成自己教師付きグラフオートエンコーダ(GAE)を事前訓練し、ベニグナモデルの特徴を学習し、攻撃戦略を知らずにバックドアモデルを検出する。 その後、GAEと一級分類器最適化の目標を動的に組み合わせて、バックドアモデルと良性モデルとを区別する分類境界を形成する。 我々のOCGECは、グラフニューラルネットワークの強力な表現能力と、異常検出の分野における一級分類技術の有用性を組み合わせたものです。 他のベースラインと比較すると、AUCは多数のタスクにおいて98%以上のスコアを達成しており、多くの正と負のサンプルを頼りにしていても、既存の検出方法を超えている。 一般的なバックドア検出のためのグラフィックシナリオの先駆的な応用は、他のバックドア防御タスクを改善するために使用できる新しい洞察を提供することができる。 コードはhttps://github.com/jhy549/OCGECで入手できる。

Deep neural networks (DNNs) have been found vulnerable to backdoor attacks, raising security concerns about their deployment in mission-critical applications. There are various approaches to detect backdoor attacks, however they all make certain assumptions about the target attack to be detected and require equal and huge numbers of clean and backdoor samples for training, which renders these detection methods quite limiting in real-world circumstances. This study proposes a novel one-class classification framework called One-class Graph Embedding Classification (OCGEC) that uses GNNs for model-level backdoor detection with only a little amount of clean data. First, we train thousands of tiny models as raw datasets from a small number of clean datasets. Following that, we design a ingenious model-to-graph method for converting the model's structural details and weight features into graph data. We then pre-train a generative self-supervised graph autoencoder (GAE) to better learn the features of benign models in order to detect backdoor models without knowing the attack strategy. After that, we dynamically combine the GAE and one-class classifier optimization goals to form classification boundaries that distinguish backdoor models from benign models. Our OCGEC combines the powerful representation capabilities of graph neural networks with the utility of one-class classification techniques in the field of anomaly detection. In comparison to other baselines, it achieves AUC scores of more than 98% on a number of tasks, which far exceeds existing methods for detection even when they rely on a huge number of positive and negative samples. Our pioneering application of graphic scenarios for generic backdoor detection can provide new insights that can be used to improve other backdoor defense tasks. Code is available at https://github.com/jhy549/OCGEC.
翻訳日:2024-04-10 02:06:00 公開日:2024-04-07
# f-FERM:ロバスト公正な経験的リスク最小化のためのスケーラブルなフレームワーク

f-FERM: A Scalable Framework for Robust Fair Empirical Risk Minimization ( http://arxiv.org/abs/2312.03259v2 )

ライセンス: Link先を確認
Sina Baharlouei, Shivam Patel, Meisam Razaviyayn, (参考訳) 保護されたグループの公正性基準を満たす機械学習モデルのトレーニングとデプロイは、現代の人工知能において基本的なものである。 機械学習タスクの公平性を促進するために、多くの制約や正規化条件が文献で提案されているが、これらの手法の多くは制約や正規化器の複雑で非線形な構造のため、確率的最適化には適さない。 ここでは、stochasticという用語は、小さなミニバッチのデータを扱うアルゴリズムの能力を指す。 本稿では,f-divergence measures(f-FERM)に基づく,公正な経験的リスク最小化のための一貫した確率的最適化手法を提案する。 提案した確率的アルゴリズムは理論収束保証を享受する。 さらに,f-FERMが提供しているほぼすべてのバッチサイズ(フルバッチからバッチサイズ1の範囲)に対して,フェアネス・正確性トレードオフの優位性を実証した。 さらに,本フレームワークは,トレーニングからテストデータへの分散シフトがある場合に拡張可能であることを示す。 我々の拡張は、不確実集合として$L_p$ノルムの下で f-FERM の目的を分布的に頑健に最適化する手法に基づいている。 この分布的にロバストな設定では、f-FERMは理論収束を保証するだけでなく、分布シフトを含むタスクにおいて文学における他の基底線よりも優れている。 f$-FERMの効率的な確率的実装が公開されている。

Training and deploying machine learning models that meet fairness criteria for protected groups are fundamental in modern artificial intelligence. While numerous constraints and regularization terms have been proposed in the literature to promote fairness in machine learning tasks, most of these methods are not amenable to stochastic optimization due to the complex and nonlinear structure of constraints and regularizers. Here, the term "stochastic" refers to the ability of the algorithm to work with small mini-batches of data. Motivated by the limitation of existing literature, this paper presents a unified stochastic optimization framework for fair empirical risk minimization based on f-divergence measures (f-FERM). The proposed stochastic algorithm enjoys theoretical convergence guarantees. In addition, our experiments demonstrate the superiority of fairness-accuracy tradeoffs offered by f-FERM for almost all batch sizes (ranging from full-batch to batch size of one). Moreover, we show that our framework can be extended to the case where there is a distribution shift from training to the test data. Our extension is based on a distributionally robust optimization reformulation of f-FERM objective under $L_p$ norms as uncertainty sets. Again, in this distributionally robust setting, f-FERM not only enjoys theoretical convergence guarantees but also outperforms other baselines in the literature in the tasks involving distribution shifts. An efficient stochastic implementation of $f$-FERM is publicly available.
翻訳日:2024-04-10 02:06:00 公開日:2024-04-07
# 協調が重要である: オーディオ・ビジュアル・セグメンテーションのための多階バイラテラル関係を探る

Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation ( http://arxiv.org/abs/2312.06462v2 )

ライセンス: Link先を確認
Qi Yang, Xing Nie, Tong Li, Pengfei Gao, Ying Guo, Cheng Zhen, Pengfei Yan, Shiming Xiang, (参考訳) 近年,ビデオ内の音声オブジェクトと画素をグループ化することを目的としたAVSタスクが導入されている。 このタスクは、初めてオーディオ駆動のピクセルレベルのシーン理解を必要とし、重大な課題を提起する。 本稿では,マルチオーダーバイラテラティオンの協調の頭字語であるCOMBO(COMBO)という,革新的なオーディオ・ビジュアル・トランスフォーマフレームワークを提案する。 AVS内における3種類の左右の絡み合い(画素の絡み合い、モダリティの絡み合い、時間的絡み合い)を初めて検討した。 画素の絡み合わせについては,先行知識を利用して基礎モデルからより正確な視覚的特徴を生成するSiam-Encoder Module (SEM) を用いる。 両面融合モジュール (BFM) を設計し, COMBOによる両方向の視覚信号と聴覚信号の整列を可能にする。 時間的絡み合いについては、時間的固有の規則に従って、革新的適応的なフレーム間整合損失を導入する。 AVSBench-object (84.7 mIoU on S4, 59.2 mIou on MS3) および AVSBench-semantic (42.1 mIoU on AVSS) データセットに関する総合的な実験とアブレーション研究により、COMBOが従来の最先端手法を超越していることが示されている。 コードやその他の結果はhttps://yannqi.github.io/AVS-COMBO/.com/で公開される。

Recently, an audio-visual segmentation (AVS) task has been introduced, aiming to group pixels with sounding objects within a given video. This task necessitates a first-ever audio-driven pixel-level understanding of the scene, posing significant challenges. In this paper, we propose an innovative audio-visual transformer framework, termed COMBO, an acronym for COoperation of Multi-order Bilateral relatiOns. For the first time, our framework explores three types of bilateral entanglements within AVS: pixel entanglement, modality entanglement, and temporal entanglement. Regarding pixel entanglement, we employ a Siam-Encoder Module (SEM) that leverages prior knowledge to generate more precise visual features from the foundational model. For modality entanglement, we design a Bilateral-Fusion Module (BFM), enabling COMBO to align corresponding visual and auditory signals bi-directionally. As for temporal entanglement, we introduce an innovative adaptive inter-frame consistency loss according to the inherent rules of temporal. Comprehensive experiments and ablation studies on AVSBench-object (84.7 mIoU on S4, 59.2 mIou on MS3) and AVSBench-semantic (42.1 mIoU on AVSS) datasets demonstrate that COMBO surpasses previous state-of-the-art methods. Code and more results will be publicly available at https://yannqi.github.io/AVS-COMBO/.
翻訳日:2024-04-10 01:56:13 公開日:2024-04-07
# Relightful Harmonization: 照明を意識した背景のリプレース

Relightful Harmonization: Lighting-aware Portrait Background Replacement ( http://arxiv.org/abs/2312.06886v2 )

ライセンス: Link先を確認
Mengwei Ren, Wei Xiong, Jae Shin Yoon, Zhixin Shu, Jianming Zhang, HyunJoon Jung, Guido Gerig, He Zhang, (参考訳) ポートレート調和は、被写体を新しい背景に合成し、背景との調和を確保するために照明と色を調整することを目的としている。 既存の調和技術は、しばしば前景のグローバルな色や明るさを調整することだけに集中し、照明方向のような背景からの重要な照明手段を無視し、非現実的な構成へと繋がる。 背景画像を用いた背景像に対する高度な照明効果をシームレスに調和させるライティング対応拡散モデルであるRelightful Harmonizationを導入する。 私たちのアプローチは3段階に展開します。 まず,対象画像からの光情報を拡散モデルでエンコードする照明表現モジュールを提案する。 第2に,画像背景から学習した照明特徴とパノラマ環境マップから学習した照明特徴とを整列するアライメントネットワークを導入する。 最後に,提案手法の光現実性をさらに向上するために,様々な自然画像から合成訓練ペアを生成する新しいデータシミュレーションパイプラインを導入する。 提案手法は,視覚的忠実度と照明コヒーレンスにおいて既存のベンチマークよりも優れており,実世界のテストシナリオにおいて優れた一般化を示し,その汎用性と実用性を強調している。

Portrait harmonization aims to composite a subject into a new background, adjusting its lighting and color to ensure harmony with the background scene. Existing harmonization techniques often only focus on adjusting the global color and brightness of the foreground and ignore crucial illumination cues from the background such as apparent lighting direction, leading to unrealistic compositions. We introduce Relightful Harmonization, a lighting-aware diffusion model designed to seamlessly harmonize sophisticated lighting effect for the foreground portrait using any background image. Our approach unfolds in three stages. First, we introduce a lighting representation module that allows our diffusion model to encode lighting information from target image background. Second, we introduce an alignment network that aligns lighting features learned from image background with lighting features learned from panorama environment maps, which is a complete representation for scene illumination. Last, to further boost the photorealism of the proposed method, we introduce a novel data simulation pipeline that generates synthetic training pairs from a diverse range of natural images, which are used to refine the model. Our method outperforms existing benchmarks in visual fidelity and lighting coherence, showing superior generalization in real-world testing scenarios, highlighting its versatility and practicality.
翻訳日:2024-04-10 01:56:13 公開日:2024-04-07
# ConsistentEE: 言語モデル推論の高速化のための一貫性と硬度をガイドした早期実行方法

ConsistentEE: A Consistent and Hardness-Guided Early Exiting Method for Accelerating Language Models Inference ( http://arxiv.org/abs/2312.11882v2 )

ライセンス: Link先を確認
Ziqian Zeng, Yihuai Hong, Hongliang Dai, Huiping Zhuang, Cen Chen, (参考訳) Early Exitingは効率的な推論を実現する最も一般的な方法の1つである。 現在の早期出口法では、訓練中のすべての内部分類器のクロスエントロピー損失の(重み付けされた)和を採用し、これらすべての分類器に全てのインスタンスを正しく予測させる。 しかし、推論の間、ある内部分類器がインスタンスを正しく予測する限り、精度を損なうことなく加速することができる。 したがって、トレーニングと推論の間には顕著なギャップがある。 本稿では,トレーニングや推論において一貫した早期終了手法であるConsistentEEを提案する。 ConsistentEEは、早期終了プロセスを強化学習問題として定式化している。 インスタンスが終了するか継続するかを決定するためにポリシーネットワークが追加される。 ConsistentEEのトレーニング目的は、各インスタンスを1つの内部分類器で正しく予測することのみである。 さらに、インスタンスの硬さを測定するために、Memorize Layerという概念を導入します。 これにより、"easy"インスタンスがアクセラレーションに集中し、"hard"インスタンスがより正確に集中できるようになります。 実験の結果,本手法は様々な自然言語理解・生成タスクにおいて,他のベースラインよりも優れていることがわかった。

Early Exiting is one of the most popular methods to achieve efficient inference. Current early exiting methods adopt the (weighted) sum of the cross entropy loss of all internal classifiers during training, imposing all these classifiers to predict all instances correctly. However, during inference, as long as one internal classifier predicts an instance correctly, it can accelerate without losing accuracy. Thus, there is a notable gap between training and inference. We propose ConsistentEE, an early exiting method that is consistent in training and inference. ConsistentEE formulates the early exiting process as a reinforcement learning problem. A policy network is added to decide whether an instance should exit or continue. The training objective of ConsistentEE only require each instance to be predicted correctly by one internal classifier. Additionally, we introduce the concept Memorize Layer to measure the hardness of an instance. We incorporate memorized layer into reward function design, which allows "easy" instances to focus more on acceleration while "hard" instances to focus more on accuracy. Experimental results show that our method outperforms other baselines on various natural language understanding and generation tasks.
翻訳日:2024-04-10 01:46:19 公開日:2024-04-07
# FPGAを用いた大規模言語モデル推論のための空間加速度の可能性を理解する

Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference ( http://arxiv.org/abs/2312.15159v2 )

ライセンス: Link先を確認
Hongzheng Chen, Jiahao Zhang, Yixiao Du, Shaojie Xiang, Zichao Yue, Niansong Zhang, Yaohui Cai, Zhiru Zhang, (参考訳) 数十億のパラメータを誇った大規模言語モデル(LLM)の最近の進歩は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。 既存のアプローチの大半は、異なるネットワーク層やオペレーターのハードウェアユニットを再利用する時間的アーキテクチャに依存している。 しかし、これらの手法はメモリアクセスのオーバーヘッドがかなり大きいため、低レイテンシを実現するのにしばしば困難に直面する。 本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。 我々のアプローチは、特定の演算子や層に対して異なるハードウェアユニットを専門化することであり、オフチップメモリアクセスを最小化しつつ、データフローアーキテクチャを介してそれらの間の直接通信を容易にする。 FPGA上で利用可能なオンチップ計算とメモリ資源を考慮した空間LLM加速器の性能を推定するための総合解析モデルを提案する。 解析により、FPGAベースの空間加速度がGPUベースよりも優れているシナリオを決定できる。 FPGA上でのLLMモデルのより生産的な実装を実現するため,我々はさらに,構成可能で再利用可能な高レベル合成(HLS)カーネルのライブラリを提供する。 このライブラリはオープンソースとして提供される予定だ。 AMD Alveo U280FPGAデバイスにBERTとGPT2を実装し,解析モデルとHLSライブラリの有効性を検証する。 提案手法は,従来のFPGAベースのBERTモデルと比較して最大13.4倍の高速化を実現することができることを示す。 GPT生成推論では、プリフィル段階でFPGAオーバーレイであるDFXと比較して2.2倍のスピードアップを実現し、デコード段階でNVIDIA A100 GPUと比較して1.9倍のスピードアップと5.7倍のエネルギー効率向上を実現した。

Recent advancements in large language models (LLMs) boasting billions of parameters have generated a significant demand for efficient deployment in inference workloads. The majority of existing approaches rely on temporal architectures that reuse hardware units for different network layers and operators. However, these methods often encounter challenges in achieving low latency due to considerable memory access overhead. This paper investigates the feasibility and potential of model-specific spatial acceleration for LLM inference on FPGAs. Our approach involves the specialization of distinct hardware units for specific operators or layers, facilitating direct communication between them through a dataflow architecture while minimizing off-chip memory accesses. We introduce a comprehensive analytical model for estimating the performance of a spatial LLM accelerator, taking into account the on-chip compute and memory resources available on an FPGA. Through our analysis, we can determine the scenarios in which FPGA-based spatial acceleration can outperform its GPU-based counterpart. To enable more productive implementations of an LLM model on FPGAs, we further provide a library of high-level synthesis (HLS) kernels that are composable and reusable. This library will be made available as open-source. To validate the effectiveness of both our analytical model and HLS library, we have implemented BERT and GPT2 on an AMD Alveo U280 FPGA device. Experimental results demonstrate our approach can achieve up to 13.4x speedup when compared to previous FPGA-based accelerators for the BERT model. For GPT generative inference, we attain a 2.2x speedup compared to DFX, an FPGA overlay, in the prefill stage, while achieving a 1.9x speedup and a 5.7x improvement in energy efficiency compared to the NVIDIA A100 GPU in the decode stage.
翻訳日:2024-04-10 01:46:19 公開日:2024-04-07
# Egocentricビデオで手動の安定グラフを再構築するGet a Grip

Get a Grip: Reconstructing Hand-Object Stable Grasps in Egocentric Videos ( http://arxiv.org/abs/2312.15719v2 )

ライセンス: Link先を確認
Zhifan Zhu, Dima Damen, (参考訳) 本研究は,物体を安定に保持するフレームの再構成を行う,手動安定グラフ再構成(HO-SGR)の課題を提案する。 まず、手と物体の間の接触領域が安定であることの直感に基づいて、安定なグリップ定義を開発する。 3D ARCTICデータセットを解析することにより、安定なつかみ時間を特定し、安定なつかみの物体が単一の自由度(1-DoF)内で動くことを示す。 そこで本研究では,物体の動きを1-DoFに最小化しながら,安定なグリップ内で全フレームを協調的に最適化する手法を提案する。 最後に、安定したグリップの2.4Kクリップをラベル付けすることで、その知識をWildビデオに拡張する。 提案するEPIC-Graspsデータセットは,9つのカテゴリの390のオブジェクトインスタンスを含む。 3次元の接地領域と2次元のプロジェクションマスクを用いて,野におけるHO-SGRの課題を評価する。 提案手法は,EPIC-Grasps と ARCTIC データセットからの安定なグリップサブシーケンスの両方において,より安定した接触領域を著しく維持する。

We propose the task of Hand-Object Stable Grasp Reconstruction (HO-SGR), the reconstruction of frames during which the hand is stably holding the object. We first develop the stable grasp definition based on the intuition that the in-contact area between the hand and object should remain stable. By analysing the 3D ARCTIC dataset, we identify stable grasp durations and showcase that objects in stable grasps move within a single degree of freedom (1-DoF). We thereby propose a method to jointly optimise all frames within a stable grasp, minimising object motions to a latent 1-DoF. Finally, we extend the knowledge to in-the-wild videos by labelling 2.4K clips of stable grasps. Our proposed EPIC-Grasps dataset includes 390 object instances of 9 categories, featuring stable grasps from videos of daily interactions in 141 environments. Without 3D ground truth, we use stable contact areas and 2D projection masks to assess the HO-SGR task in the wild. We evaluate relevant methods and our approach preserves significantly higher stable contact area, on both EPIC-Grasps and stable grasp sub-sequences from the ARCTIC dataset.
翻訳日:2024-04-10 01:46:19 公開日:2024-04-07
# パーソナライズされた顔生成における同時・粒度表現制御に向けて

Towards a Simultaneous and Granular Identity-Expression Control in Personalized Face Generation ( http://arxiv.org/abs/2401.01207v2 )

ライセンス: Link先を確認
Renshuai Liu, Bowen Ma, Wei Zhang, Zhipeng Hu, Changjie Fan, Tangjie Lv, Yu Ding, Xuan Cheng, (参考訳) 人間中心のコンテンツ生成において、事前訓練されたテキスト・ツー・イメージ・モデルは、多様な表現を示しながら個人を同一視するユーザ要求のポートレートイメージを作成するのに苦労する。 本稿では,パーソナライズされた顔生成への取り組みを紹介する。 そこで本研究では,識別・表現同時制御とよりきめ細かい表現合成が可能な,新しいマルチモーダル顔生成フレームワークを提案する。 私たちの表現制御は非常に洗練されたので、きめ細かい感情的な語彙を専門化できます。 本研究では,顔交換と再現を同時に行う新しい拡散モデルを提案する。 アイデンティティと表現の絡み合いのため、1つのフレームワークで個別に正確に制御することは簡単ではないため、まだ検討されていない。 そこで本研究では,パラメータと表現エンコーダのバランス,中間点サンプリングの改善,背景条件の明確化など,条件拡散モデルにおけるいくつかの革新的な設計を提案する。 大規模な実験では、最先端のテキスト・トゥ・イメージ、顔のスワップ、顔の再現法と比較して、提案フレームワークの制御性とスケーラビリティを実証している。

In human-centric content generation, the pre-trained text-to-image models struggle to produce user-wanted portrait images, which retain the identity of individuals while exhibiting diverse expressions. This paper introduces our efforts towards personalized face generation. To this end, we propose a novel multi-modal face generation framework, capable of simultaneous identity-expression control and more fine-grained expression synthesis. Our expression control is so sophisticated that it can be specialized by the fine-grained emotional vocabulary. We devise a novel diffusion model that can undertake the task of simultaneously face swapping and reenactment. Due to the entanglement of identity and expression, it's nontrivial to separately and precisely control them in one framework, thus has not been explored yet. To overcome this, we propose several innovative designs in the conditional diffusion model, including balancing identity and expression encoder, improved midpoint sampling, and explicitly background conditioning. Extensive experiments have demonstrated the controllability and scalability of the proposed framework, in comparison with state-of-the-art text-to-image, face swapping, and face reenactment methods.
翻訳日:2024-04-10 01:36:21 公開日:2024-04-07
# AG-ReID.v2: 人体再識別のための航空と地上の展望

AG-ReID.v2: Bridging Aerial and Ground Views for Person Re-identification ( http://arxiv.org/abs/2401.02634v2 )

ライセンス: Link先を確認
Huy Nguyen, Kien Nguyen, Sridha Sridharan, Clinton Fookes, (参考訳) 空中人物再識別(Re-ID)は、高度の空中カメラと地上カメラの視点、ポーズ、解像度の相違から起因して、コンピュータビジョンにおける固有の課題を提示する。 既存の研究は主に地上対地上のマッチングに焦点を合わせており、包括的なデータセットの欠如により、空中のマッチングがあまり調査されていない。 これを解決するために、Ag-ReID.v2は、空中と地上の混合シナリオにおいて、人物Re-ID用に特別に設計されたデータセットである。 このデータセットは、1,615人のユニークな個人の100,502枚の画像で構成され、それぞれに一致するIDと15のソフト属性ラベルが付加されている。 データは、UAV、静止CCTV、スマートグラス統合カメラを用いて様々な視点から収集され、多様なアイデンティティー内バリエーションを提供する。 さらに、このデータセットに適した説明可能な注意ネットワークを開発した。 このネットワークは、ペアワイズ画像距離を効率よく処理し、重要なトップダウン機能を強調し、高度差による外観の変化に適応する3ストリームアーキテクチャを備えている。 比較評価は,既存ベースラインよりもアプローチが優れていることを示す。 我々は、このコンピュータビジョンの専門分野の研究を進めることを目的として、データセットとアルゴリズムのソースコードを公開する計画である。 アクセスについてはhttps://github.com/huynguyen792/AG-ReID.v2を参照してください。

Aerial-ground person re-identification (Re-ID) presents unique challenges in computer vision, stemming from the distinct differences in viewpoints, poses, and resolutions between high-altitude aerial and ground-based cameras. Existing research predominantly focuses on ground-to-ground matching, with aerial matching less explored due to a dearth of comprehensive datasets. To address this, we introduce AG-ReID.v2, a dataset specifically designed for person Re-ID in mixed aerial and ground scenarios. This dataset comprises 100,502 images of 1,615 unique individuals, each annotated with matching IDs and 15 soft attribute labels. Data were collected from diverse perspectives using a UAV, stationary CCTV, and smart glasses-integrated camera, providing a rich variety of intra-identity variations. Additionally, we have developed an explainable attention network tailored for this dataset. This network features a three-stream architecture that efficiently processes pairwise image distances, emphasizes key top-down features, and adapts to variations in appearance due to altitude differences. Comparative evaluations demonstrate the superiority of our approach over existing baselines. We plan to release the dataset and algorithm source code publicly, aiming to advance research in this specialized field of computer vision. For access, please visit https://github.com/huynguyen792/AG-ReID.v2.
翻訳日:2024-04-10 01:36:21 公開日:2024-04-07
# 時空間乱流緩和 : 翻訳的視点

Spatio-Temporal Turbulence Mitigation: A Translational Perspective ( http://arxiv.org/abs/2401.04244v2 )

ライセンス: Link先を確認
Xingguang Zhang, Nicholas Chimitt, Yiheng Chi, Zhiyuan Mao, Stanley H. Chan, (参考訳) 大気乱流によって歪んだ画像の復元は、乱流の確率的性質のために難しい逆問題である。 多くの乱流緩和(TM)アルゴリズムが提案されているが、その効率性と実世界の動的シナリオへの一般化は依然として著しく制限されている。 従来のTMアルゴリズムの直感に基づいて,DATUM(Deep Atmospheric TUrbulence Mitigation Network)を提案する。 DATUMは、古典的なアプローチからディープラーニングアプローチへの移行において、大きな課題を克服することを目指している。 従来のマルチフレームTM手法の利点をディープネットワーク構造に注意深く統合することにより、DATUMは、変形可能な注意と時間チャネルの注意がピクセル登録やラッキーイメージングをシームレスに促進しつつ、反復的な手法で、時間的時間的アグリゲーションを効率的に行うことができることを示す。 追加の監督により、傾きとぼかしの劣化を共同で緩和することができる。 これらの帰納バイアスにより、DATUMは、処理速度を10倍に向上させながら、既存の手法を大幅に上回ることができる。 大規模なトレーニングデータセットであるATSynは、実際の乱流における一般化を可能にする共発明として提示される。 私たちのコードとデータセットはhttps://xg416.github.io/DATUMで公開されています。

Recovering images distorted by atmospheric turbulence is a challenging inverse problem due to the stochastic nature of turbulence. Although numerous turbulence mitigation (TM) algorithms have been proposed, their efficiency and generalization to real-world dynamic scenarios remain severely limited. Building upon the intuitions of classical TM algorithms, we present the Deep Atmospheric TUrbulence Mitigation network (DATUM). DATUM aims to overcome major challenges when transitioning from classical to deep learning approaches. By carefully integrating the merits of classical multi-frame TM methods into a deep network structure, we demonstrate that DATUM can efficiently perform long-range temporal aggregation using a recurrent fashion, while deformable attention and temporal-channel attention seamlessly facilitate pixel registration and lucky imaging. With additional supervision, tilt and blur degradation can be jointly mitigated. These inductive biases empower DATUM to significantly outperform existing methods while delivering a tenfold increase in processing speed. A large-scale training dataset, ATSyn, is presented as a co-invention to enable generalization in real turbulence. Our code and datasets are available at https://xg416.github.io/DATUM.
翻訳日:2024-04-10 01:36:21 公開日:2024-04-07
# 暗黒のウェブで暗号通貨の不正行為を追跡中

The Devil Behind the Mirror: Tracking the Campaigns of Cryptocurrency Abuses on the Dark Web ( http://arxiv.org/abs/2401.04662v2 )

ライセンス: Link先を確認
Pengcheng Xia, Zhou Yu, Kailong Wang, Kai Ma, Shuo Chen, Xiapu Luo, Yajin Zhou, Lei Wu, Guangdong Bai, (参考訳) ダークウェブは匿名性を高める最先端のソリューションとして登場した。 二重刃の剣のように、不当に安全網となり、違法行為の場となる。 そのうちの1つは、暗号通貨が違法な収入を得るために悪用されていることであり、規制を回避している。 不正行為と闘う努力を続けているにもかかわらず、ダークウェブにおける暗号通貨の悪用の特徴とダイナミクスに関する深い理解はいまだに欠けている。 本研究では,暗黒ウェブ上での暗号通貨関連の不正行為やキャンペーンを多次元かつ体系的に追跡する。 私たちはまず、130Kページを超える暗号通貨関連玉ねぎサイト4,923件のデータセットを収集した。 そして、不正なブロックチェーントランザクションを検出して、暗号通貨の不正行為を特徴付ける。 調査を通じて、違法なブロックチェーンアドレスが1,189個ある2,564の違法サイトを特定しました。 内部のつながりに基づいて、さらに66のキャンペーンを識別する。 ダークウェブにおける不正なアクティビティには強い相関関係があり、新たな不正なブロックチェーンアドレスとタマネギを識別し、デプロイメントの初期段階でアラームを発生させることができます。

The dark web has emerged as the state-of-the-art solution for enhanced anonymity. Just like a double-edged sword, it also inadvertently becomes the safety net and breeding ground for illicit activities. Among them, cryptocurrencies have been prevalently abused to receive illicit income while evading regulations. Despite the continuing efforts to combat illicit activities, there is still a lack of an in-depth understanding regarding the characteristics and dynamics of cryptocurrency abuses on the dark web. In this work, we conduct a multi-dimensional and systematic study to track cryptocurrency-related illicit activities and campaigns on the dark web. We first harvest a dataset of 4,923 cryptocurrency-related onion sites with over 130K pages. Then, we detect and extract the illicit blockchain transactions to characterize the cryptocurrency abuses, targeting features from single/clustered addresses and illicit campaigns. Throughout our study, we have identified 2,564 illicit sites with 1,189 illicit blockchain addresses, which account for 90.8 BTC in revenue. Based on their inner connections, we further identify 66 campaigns behind them. Our exploration suggests that illicit activities on the dark web have strong correlations, which can guide us to identify new illicit blockchain addresses and onions, and raise alarms at the early stage of their deployment.
翻訳日:2024-04-10 01:36:21 公開日:2024-04-07
# 決定変換器を用いた連続オフライン強化学習の解法

Solving Continual Offline Reinforcement Learning with Decision Transformer ( http://arxiv.org/abs/2401.08478v2 )

ライセンス: Link先を確認
Kaixin Huang, Li Shen, Chen Zhao, Chun Yuan, Dacheng Tao, (参考訳) 継続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたもので、エージェントは、前のタスクを忘れずに、静的データセットから複数のタスクを学習することができる。 しかし、CORLは安定性と塑性のバランスをとる上で困難に直面している。 Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。 そこで本研究では,他のオフラインRLパラダイムであるDecision Transformer(DT)が,これらの問題に対処するためのより適切なオフライン連続学習者として機能するかどうかを検討することを目的とする。 我々はまず、ACベースのオフラインアルゴリズムとCORLフレームワークのDTを比較した。 DTは学習効率、分散シフト緩和、ゼロショット一般化の利点を提供するが、教師付きパラメータ更新時の忘れ問題を悪化させる。 我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を軽減した。 MH-DTは、複数のヘッドを使用してタスク固有の知識を格納し、共通コンポーネントとの知識共有を容易にする。 蒸留と選択的なリハーサルを使用して、リプレイバッファが利用できる場合の現在のタスク学習を強化する。 バッファなしのシナリオでは、LoRA-DTは、現在のタスクに適応するために、影響の少ない重みと微調整のMDP層をマージする。 MoJuCoとMeta-Worldベンチマークの大規模な実験により,本手法はSOTA CORLのベースラインを上回り,学習能力の向上とメモリ効率の向上を実証した。

Continuous offline reinforcement learning (CORL) combines continuous and offline reinforcement learning, enabling agents to learn multiple tasks from static datasets without forgetting prior tasks. However, CORL faces challenges in balancing stability and plasticity. Existing methods, employing Actor-Critic structures and experience replay (ER), suffer from distribution shifts, low efficiency, and weak knowledge-sharing. We aim to investigate whether Decision Transformer (DT), another offline RL paradigm, can serve as a more suitable offline continuous learner to address these issues. We first compare AC-based offline algorithms with DT in the CORL framework. DT offers advantages in learning efficiency, distribution shift mitigation, and zero-shot generalization but exacerbates the forgetting problem during supervised parameter updates. We introduce multi-head DT (MH-DT) and low-rank adaptation DT (LoRA-DT) to mitigate DT's forgetting problem. MH-DT stores task-specific knowledge using multiple heads, facilitating knowledge sharing with common components. It employs distillation and selective rehearsal to enhance current task learning when a replay buffer is available. In buffer-unavailable scenarios, LoRA-DT merges less influential weights and fine-tunes DT's decisive MLP layer to adapt to the current task. Extensive experiments on MoJuCo and Meta-World benchmarks demonstrate that our methods outperform SOTA CORL baselines and showcase enhanced learning capabilities and superior memory efficiency.
翻訳日:2024-04-10 01:36:21 公開日:2024-04-07
# カスケード強化学習

Cascading Reinforcement Learning ( http://arxiv.org/abs/2401.08961v4 )

ライセンス: Link先を確認
Yihan Du, R. Srikant, Wei Chen, (参考訳) 近年ではレコメンデーションシステムやオンライン広告の適用性から、カスケードバンドが人気を集めている。 カスケーディング・バンディット・モデルでは、各段階においてエージェントはアイテムのプールからアイテムの順序付きサブセット(アイテムリストと呼ばれる)を推奨し、それぞれが未知のアトラクション確率に関連付けられている。 そして、ユーザがリストを調べて、最初の魅力的なアイテム(もしあれば)をクリックし、その後、エージェントは報酬を受け取る。 エージェントの目標は、期待される累積報酬を最大化することです。 しかしながら、カスケードの盗賊に関する以前の文献は、セッションが進むにつれて、レコメンデーションや状態の変化に対するユーザー状態(例えば、過去の行動)の影響を無視している。 この事実を動機として,ユーザ状態と状態遷移が意思決定に与える影響を考慮し,一般化されたカスケードRLフレームワークを提案する。 カスケード RL では、大きなアトラクション確率を持つだけでなく、優れた後継状態につながる項目を選択する必要がある。 これにより、組合せ作用空間による計算上の大きな課題が生じる。 この課題に対処するため、我々は値関数の特性を調べ、最適な項目リストを効率的に見つけるためにBestPermを設計します。 BestPermを組み込んだCascadingVIとCascadingBPIの2つのアルゴリズムを開発した。 さらに,既存のRLアルゴリズムを実際に適用した場合と比較して,アルゴリズムの計算効率とサンプル効率の改善を示す実験を行った。

Cascading bandits have gained popularity in recent years due to their applicability to recommendation systems and online advertising. In the cascading bandit model, at each timestep, an agent recommends an ordered subset of items (called an item list) from a pool of items, each associated with an unknown attraction probability. Then, the user examines the list, and clicks the first attractive item (if any), and after that, the agent receives a reward. The goal of the agent is to maximize the expected cumulative reward. However, the prior literature on cascading bandits ignores the influences of user states (e.g., historical behaviors) on recommendations and the change of states as the session proceeds. Motivated by this fact, we propose a generalized cascading RL framework, which considers the impact of user states and state transition into decisions. In cascading RL, we need to select items not only with large attraction probabilities but also leading to good successor states. This imposes a huge computational challenge due to the combinatorial action space. To tackle this challenge, we delve into the properties of value functions, and design an oracle BestPerm to efficiently find the optimal item list. Equipped with BestPerm, we develop two algorithms CascadingVI and CascadingBPI, which are both computationally-efficient and sample-efficient, and provide near-optimal regret and sample complexity guarantees. Furthermore, we present experiments to show the improved computational and sample efficiencies of our algorithms compared to straightforward adaptations of existing RL algorithms in practice.
翻訳日:2024-04-10 01:36:21 公開日:2024-04-07
# 奥行き - 大規模未ラベルデータのパワーを解放する

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data ( http://arxiv.org/abs/2401.10891v2 )

ライセンス: Link先を確認
Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao, (参考訳) この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。 新たな技術モジュールを追求することなく、どのような状況でも画像を扱うシンプルな、かつ強力な基盤モデルを構築することを目指している。 この目的のために,データエンジンを設計してデータセットをスケールアップし,大規模未ラベルデータ(~62M)を自動アノテートすることで,データカバレッジを大幅に拡大し,一般化エラーを低減する。 データスケーリングを有望にする2つの単純かつ効果的な戦略について検討する。 まず、データ拡張ツールを活用することで、より困難な最適化ターゲットが作成されます。 余分な視覚的知識を積極的に追求し、堅牢な表現を得るためにモデルを補完する。 第二に、事前訓練されたエンコーダからリッチなセマンティックオーディエンスを継承するために、モデルを強制する補助的な監督法が開発されている。 6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。 それは印象的な一般化能力を示している。 さらに、NYUv2およびKITTIの計量深度情報を微調整することにより、新しいSOTAを設定する。 我々のより良い深度モデルもまた、より優れた深度条件のコントロールネットをもたらす。 私たちのモデルはhttps://github.com/LiheYoung/Depth-Anything.comでリリースされています。

This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.
翻訳日:2024-04-10 01:36:21 公開日:2024-04-07
# 多変量時系列予測におけるチャネル依存性の再考:先行指標からの学習

Rethinking Channel Dependence for Multivariate Time Series Forecasting: Learning from Leading Indicators ( http://arxiv.org/abs/2401.17548v4 )

ライセンス: Link先を確認
Lifan Zhao, Yanyan Shen, (参考訳) 近年,多変量時系列(MTS)予測において,チャネル非依存の手法により最先端の性能が達成されている。 過度に適合するリスクを減らしたにもかかわらず、これらの手法は正確な予測のためにチャネル依存を利用する機会を逃している。 変数間では局所的に定常的な鉛-ラグ関係が存在する,すなわち,短時間で先頭の指標に従うようなラグ型変数が存在する,と我々は主張する。 先行指標は、ラベル付き変数の予測困難を軽減するために使用できる事前情報を提供するので、そのようなチャネル依存の爆発は有益である。 本稿では,まず,各段階における先行指標とその先行ステップを効率よく推定し,次に,先行指標からの先行情報を活用するためのLIFTという新しい手法を提案する。 LIFTは任意の時系列予測メソッドとシームレスに協調できるプラグインとして機能する。 6つの実世界のデータセットに対する大規模な実験により、LIFTは平均予測性能を5.5%改善することを示した。 私たちのコードはhttps://github.com/SJTU-Quant/LIFT.comで公開されています。

Recently, channel-independent methods have achieved state-of-the-art performance in multivariate time series (MTS) forecasting. Despite reducing overfitting risks, these methods miss potential opportunities in utilizing channel dependence for accurate predictions. We argue that there exist locally stationary lead-lag relationships between variates, i.e., some lagged variates may follow the leading indicators within a short time period. Exploiting such channel dependence is beneficial since leading indicators offer advance information that can be used to reduce the forecasting difficulty of the lagged variates. In this paper, we propose a new method named LIFT that first efficiently estimates leading indicators and their leading steps at each time step and then judiciously allows the lagged variates to utilize the advance information from leading indicators. LIFT plays as a plugin that can be seamlessly collaborated with arbitrary time series forecasting methods. Extensive experiments on six real-world datasets demonstrate that LIFT improves the state-of-the-art methods by 5.5% in average forecasting performance. Our code is available at https://github.com/SJTU-Quant/LIFT.
翻訳日:2024-04-10 01:26:28 公開日:2024-04-07
# DeepAAT: 高速UAVマッピングのための深部自動空中三角測量

DeepAAT: Deep Automated Aerial Triangulation for Fast UAV-based Mapping ( http://arxiv.org/abs/2402.01134v2 )

ライセンス: Link先を確認
Zequan Chen, Jianping Li, Qusheng Li, Bisheng Yang, Zhen Dong, (参考訳) AAT(Automated Aerial Triangulation)は、画像のポーズを復元し、スパースポイントを同時に再構築することを目的として、地球観測において重要な役割を担っている。 数十年にわたる光度測定の豊富な研究遺産により、AATは大規模無人航空機(UAV)のマッピングに広く応用された基本的なプロセスへと発展してきた。 その進歩にもかかわらず、古典的なAAT手法は、低効率と限られた堅牢性といった課題に直面している。 本稿では,UAV画像のAATに特化したディープラーニングネットワークであるDeepAATを紹介する。 DeepAATは画像の空間的特徴とスペクトル的特徴の両方を考慮し、誤マッチングペアの解決能力を高め、画像のポーズを正確に予測する。 DeepAATはAATの効率を大幅に向上させ、徹底的なシーンカバレッジと精度を確保している。 その処理速度は、インクリメンタルAATメソッドを数百倍上回り、グローバルAATメソッドを数倍上回り、再現精度は同等である。 さらに、DeepAATのシーンクラスタリングとマージ戦略は、制約されたコンピューティングリソースの下でも、迅速なローカライズと大規模なUAV画像のポーズ決定を促進する。 実験結果は,従来のAAT法よりも大幅に改善され,UAVベースの3D再構成作業の効率性と精度が向上したことを示している。 フォトグラム化社会の利益を得るために、DeepAATのコードはhttps://github.com/WHU-USI3DV/DeepAATで公開される。

Automated Aerial Triangulation (AAT), aiming to restore image pose and reconstruct sparse points simultaneously, plays a pivotal role in earth observation. With its rich research heritage spanning several decades in photogrammetry, AAT has evolved into a fundamental process widely applied in large-scale Unmanned Aerial Vehicle (UAV) based mapping. Despite its advancements, classic AAT methods still face challenges like low efficiency and limited robustness. This paper introduces DeepAAT, a deep learning network designed specifically for AAT of UAV imagery. DeepAAT considers both spatial and spectral characteristics of imagery, enhancing its capability to resolve erroneous matching pairs and accurately predict image poses. DeepAAT marks a significant leap in AAT's efficiency, ensuring thorough scene coverage and precision. Its processing speed outpaces incremental AAT methods by hundreds of times and global AAT methods by tens of times while maintaining a comparable level of reconstruction accuracy. Additionally, DeepAAT's scene clustering and merging strategy facilitate rapid localization and pose determination for large-scale UAV images, even under constrained computing resources. The experimental results demonstrate DeepAAT's substantial improvements over conventional AAT methods, highlighting its potential in the efficiency and accuracy of UAV-based 3D reconstruction tasks. To benefit the photogrammetry society, the code of DeepAAT will be released at: https://github.com/WHU-USI3DV/DeepAAT.
翻訳日:2024-04-10 01:26:28 公開日:2024-04-07
# RSV事例検出のためのオンライン転送学習

Online Transfer Learning for RSV Case Detection ( http://arxiv.org/abs/2402.01987v2 )

ライセンス: Link先を確認
Yiming Sun, Yuhe Gao, Runxue Bao, Gregory F. Cooper, Jessi Espino, Harry Hochheiser, Marian G. Michaels, John M. Aronis, Chenxi Song, Ye Ye, (参考訳) トランスファーラーニングは機械学習において重要な技術となり、様々な現実世界の応用に有効であることが証明されている。 しかし、この手法をシーケンシャルデータを用いた分類タスクに活用することは、主にクラスラベルの不足に起因する課題に直面することが多い。 そこで本稿では,マルチソース適応重み付け(Multi-Source Adaptive Weighting:MSAW)を提案する。 MSAWは、動的重み付け機構をアンサンブルフレームワークに統合し、各ソース(歴史的知識を表す)とターゲットモデル(新たに取得したデータから学習)の関連性と貢献に基づいて重みの自動調整を可能にする。 本研究は, ピッツバーグ大学医療センターの電子健康記録を用いて, 救急外来における呼吸性シンサイトールウイルスの検出にMSAWを応用し, その効果を実証するものである。 本手法は,オンライン学習による事前学習モデルの改良や3つの静的重み付け手法など,多くのベースライン上での性能向上を示す。 本研究は、医療におけるオンライントランスファー学習の可能性、特に、新たなデータが漸進的に蓄積される進化する状況に動的に適応する機械学習モデルを開発するための可能性を示唆する。

Transfer learning has become a pivotal technique in machine learning and has proven to be effective in various real-world applications. However, utilizing this technique for classification tasks with sequential data often faces challenges, primarily attributed to the scarcity of class labels. To address this challenge, we introduce Multi-Source Adaptive Weighting (MSAW), an online multi-source transfer learning method. MSAW integrates a dynamic weighting mechanism into an ensemble framework, enabling automatic adjustment of weights based on the relevance and contribution of each source (representing historical knowledge) and target model (learning from newly acquired data). We demonstrate the effectiveness of MSAW by applying it to detect Respiratory Syncytial Virus cases within Emergency Department visits, utilizing multiple years of electronic health records from the University of Pittsburgh Medical Center. Our method demonstrates performance improvements over many baselines, including refining pre-trained models with online learning as well as three static weighting approaches, showing MSAW's capacity to integrate historical knowledge with progressively accumulated new data. This study indicates the potential of online transfer learning in healthcare, particularly for developing machine learning models that dynamically adapt to evolving situations where new data is incrementally accumulated.
翻訳日:2024-04-10 01:26:28 公開日:2024-04-07
# 階層的木構造知識グラフによる学術的洞察調査

Hierarchical Tree-structured Knowledge Graph For Academic Insight Survey ( http://arxiv.org/abs/2402.04854v2 )

ライセンス: Link先を確認
Jinghong Li, Huy Phan, Wen Gu, Koichi Ota, Shinobu Hasegawa, (参考訳) 調査は、研究トレーニングが不足している初心者研究者にとって、常に課題となっている。 これらの研究者は、研究トピックの方向性や、新しい研究結果の発見を短期間で理解するのに苦労しています。 初心者研究者に直感的な支援を提供する一つの方法は、関連する知識グラフ(KG)を提供し、関連する学術論文を推薦することである。 しかし、既存のナビゲーション知識グラフは主に研究分野のキーワードに依存しており、複数の関連論文の論理的階層をはっきりと示さないことが多い。 さらに、学術論文の推薦システムの多くは、単に高いテキスト類似性に依存しており、研究者は、ある記事が推奨されている理由について混乱させる可能性がある。 また, 「Issue Solution」 と 「Issue Find」 の間に得られる洞察の関連性について, 重要な情報が欠如している可能性がある。 これらの課題に対処するために,本研究では,研究トピックの継承洞察と学術論文の関連洞察を反映した階層的木構造知識グラフを確立することにより,初心者研究者を対象とした研究洞察調査を支援することを目的とする。

Research surveys have always posed a challenge for beginner researchers who lack of research training. These researchers struggle to understand the directions within their research topic, and the discovery of new research findings within a short time. One way to provide intuitive assistance to beginner researchers is by offering relevant knowledge graphs(KG) and recommending related academic papers. However, existing navigation knowledge graphs primarily rely on keywords in the research field and often fail to present the logical hierarchy among multiple related papers clearly. Moreover, most recommendation systems for academic papers simply rely on high text similarity, which can leave researchers confused as to why a particular article is being recommended. They may lack of grasp important information about the insight connection between "Issue resolved" and "Issue finding" that they hope to obtain. To address these issues, this study aims to support research insight surveys for beginner researchers by establishing a hierarchical tree-structured knowledge graph that reflects the inheritance insight of research topics and the relevance insight among the academic papers.
翻訳日:2024-04-10 01:16:32 公開日:2024-04-07
# 身元不明の患者集団に対する非検出的敵対的バイアスアタック(動画あり)

Hidden in Plain Sight: Undetectable Adversarial Bias Attacks on Vulnerable Patient Populations ( http://arxiv.org/abs/2402.05713v3 )

ライセンス: Link先を確認
Pranav Kulkarni, Andrew Chan, Nithya Navarathna, Skylar Chan, Paul H. Yi, Vishwa S. Parekh, (参考訳) 放射線学における人工知能(AI)の拡散は、深層学習(DL)モデルが脆弱な患者に対する臨床バイアスを悪化させるリスクに光を当てている。 従来の文献では、訓練されたDLモデルによって示されるバイアスの定量化に焦点が当てられていたが、人口統計学的にDLモデルに対する敵対的バイアス攻撃とその臨床環境への影響は、医用画像研究の未調査分野として残されている。 本研究は,人口動態を標的としたラベル中毒攻撃が,DLモデルにおいて検出不能な診断バイアスをもたらすことを実証するものである。 本研究の結果は,性別,年齢,およびそれらの交叉部分群など,複数のパフォーマンス指標および人口動態群にまたがって,モデル全体の性能に影響を及ぼすことなく,グループモデルのパフォーマンスを劣化させることにより,対象群における偏見に対する高い選択性を示すことが示された。 さらに, 逆偏差攻撃は, 外部データセットを用いて評価しても, 予測偏差を伝播する有意なDLモデルをもたらすことが示唆された。

The proliferation of artificial intelligence (AI) in radiology has shed light on the risk of deep learning (DL) models exacerbating clinical biases towards vulnerable patient populations. While prior literature has focused on quantifying biases exhibited by trained DL models, demographically targeted adversarial bias attacks on DL models and its implication in the clinical environment remains an underexplored field of research in medical imaging. In this work, we demonstrate that demographically targeted label poisoning attacks can introduce undetectable underdiagnosis bias in DL models. Our results across multiple performance metrics and demographic groups like sex, age, and their intersectional subgroups show that adversarial bias attacks demonstrate high-selectivity for bias in the targeted group by degrading group model performance without impacting overall model performance. Furthermore, our results indicate that adversarial bias attacks result in biased DL models that propagate prediction bias even when evaluated with external datasets.
翻訳日:2024-04-10 01:16:32 公開日:2024-04-07
# 変圧器圧縮に関する調査

A Survey on Transformer Compression ( http://arxiv.org/abs/2402.05964v2 )

ライセンス: Link先を確認
Yehui Tang, Yunhe Wang, Jianyuan Guo, Zhijun Tu, Kai Han, Hailin Hu, Dacheng Tao, (参考訳) トランスフォーマーは、自然言語処理(NLP)とコンピュータビジョン(CV)の領域において、特に大型言語モデル(LLM)と大型ビジョンモデル(LVM)の構築において重要な役割を果たす。 モデル圧縮法はTransformerのメモリと計算コストを削減し、実用的なデバイス上で大きな言語/ビジョンモデルを実装するために必要なステップである。 代替の注意とフィードフォワードニューラルネットワーク(FFN)モジュールを特徴とするTransformerのユニークなアーキテクチャを考えると、特定の圧縮技術が要求される。 これらの圧縮手法の効率も最重要であり、トレーニングデータセット全体において大きなモデルを再訓練することは、通常不可能である。 この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。 圧縮法は主にプルーニング、量子化、知識蒸留、効率的なアーキテクチャ設計(Mamba、RetNet、RWKVなど)に分けられる。 それぞれのカテゴリにおいて、言語と視覚の両方のタスクの圧縮方法について議論し、共通原理を強調する。 最後に、様々な圧縮手法の関係を掘り下げ、この領域のさらなる方向性について論じる。

Transformer plays a vital role in the realms of natural language processing (NLP) and computer vision (CV), specially for constructing large language models (LLM) and large vision models (LVM). Model compression methods reduce the memory and computational cost of Transformer, which is a necessary step to implement large language/vision models on practical devices. Given the unique architecture of Transformer, featuring alternative attention and feedforward neural network (FFN) modules, specific compression techniques are usually required. The efficiency of these compression methods is also paramount, as retraining large models on the entire training dataset is usually impractical. This survey provides a comprehensive review of recent compression methods, with a specific focus on their application to Transformer-based models. The compression methods are primarily categorized into pruning, quantization, knowledge distillation, and efficient architecture design (Mamba, RetNet, RWKV, etc.). In each category, we discuss compression methods for both language and vision tasks, highlighting common underlying principles. Finally, we delve into the relation between various compression methods, and discuss further directions in this domain.
翻訳日:2024-04-10 01:16:32 公開日:2024-04-07
# NeuroIDBench:脳波ベースの認証研究における方法論の標準化のためのオープンソースのベンチマークフレームワーク

NeuroIDBench: An Open-Source Benchmark Framework for the Standardization of Methodology in Brainwave-based Authentication Research ( http://arxiv.org/abs/2402.08656v3 )

ライセンス: Link先を確認
Avinash Kumar Chaurasia, Matin Fallahi, Thorsten Strufe, Philipp Terhörst, Patricia Arias Cabarcos, (参考訳) 脳活動に基づく生体認証システムは、パスワードに代わるものや、現在の認証技術を補完するものとして提案されている。 個人の独自の脳波パターンを活用することで、これらのシステムは盗難に抵抗し、ハンズフリーでアクセス可能で、さらには取り消しも可能な認証ソリューションを作成することができる。 しかし、この分野では研究の流れが拡大しているにもかかわらず、再現性の問題によって急速な進歩が妨げられている。 パフォーマンス結果やシステム構成に関する標準的な報告スキームの欠如や、一般的な評価ベンチマークの欠如といった問題により、様々なバイオメトリックソリューションのコンパラビリティと適切な評価が困難になる。 さらに、ソースコードが公開されていない場合、バリアは将来の作業のために構築される。 このギャップを埋めるために、脳波ベースの認証モデルをベンチマークする柔軟なオープンソースツールであるNeuroIDBenchを紹介します。 9つの多様なデータセットが組み込まれ、包括的な前処理パラメータと機械学習アルゴリズムを実装し、2つの共通の敵モデル(既知の攻撃者対未知の攻撃者)下でのテストを可能にし、研究者が完全なパフォーマンスレポートと視覚化を生成することができる。 我々はNeuroIDBenchを用いて,本論文で提案されている浅層分類器と深層学習に基づくアプローチを調査し,複数のセッションで堅牢性をテストする。 我々は、未知の攻撃シナリオ(典型的には文献ではテストされていない)に対して、37.6%のEER(Equal Error Rate)の削減を観察し、脳波認証におけるセッション変動の重要性を強調した。 総じて,我々は,アルゴリズムの公正比較を合理化する上で,NeuroIDBenchの有効性と妥当性を実証し,堅牢な方法論的手法による脳波認証の進歩を推し進めた。

Biometric systems based on brain activity have been proposed as an alternative to passwords or to complement current authentication techniques. By leveraging the unique brainwave patterns of individuals, these systems offer the possibility of creating authentication solutions that are resistant to theft, hands-free, accessible, and potentially even revocable. However, despite the growing stream of research in this area, faster advance is hindered by reproducibility problems. Issues such as the lack of standard reporting schemes for performance results and system configuration, or the absence of common evaluation benchmarks, make comparability and proper assessment of different biometric solutions challenging. Further, barriers are erected to future work when, as so often, source code is not published open access. To bridge this gap, we introduce NeuroIDBench, a flexible open source tool to benchmark brainwave-based authentication models. It incorporates nine diverse datasets, implements a comprehensive set of pre-processing parameters and machine learning algorithms, enables testing under two common adversary models (known vs unknown attacker), and allows researchers to generate full performance reports and visualizations. We use NeuroIDBench to investigate the shallow classifiers and deep learning-based approaches proposed in the literature, and to test robustness across multiple sessions. We observe a 37.6% reduction in Equal Error Rate (EER) for unknown attacker scenarios (typically not tested in the literature), and we highlight the importance of session variability to brainwave authentication. All in all, our results demonstrate the viability and relevance of NeuroIDBench in streamlining fair comparisons of algorithms, thereby furthering the advancement of brainwave-based authentication through robust methodological practices.
翻訳日:2024-04-10 01:06:46 公開日:2024-04-07
# EcoVal: 機械学習のための効率的なデータ評価フレームワーク

EcoVal: An Efficient Data Valuation Framework for Machine Learning ( http://arxiv.org/abs/2402.09288v4 )

ライセンス: Link先を確認
Ayush K Tarun, Vikram S Chundawat, Murari Mandal, Hong Ming Tan, Bowei Chen, Mohan Kankanhalli, (参考訳) 機械学習ワークフローにおけるデータの価値の定量化は、機械学習イニシアチブにおいて、より戦略的決定を下す上で重要な役割を果たす。 機械学習におけるデータバリュエーションのための既存のShapley値ベースのフレームワークは、Shapley値を得るためにモデルの繰り返しトレーニングを必要とするため、計算コストがかかる。 本稿では,機械学習モデルにおけるデータの価値を,高速かつ実用的な方法で推定する,効率的なデータアセスメントフレームワークであるEcoValを紹介する。 個々のデータサンプルを直接扱う代わりに、類似したデータポイントのクラスタの値を決定します。 この値は、全てのメンバークラスタポイントの間でさらに伝播する。 本研究では,各データの内在的および外在的値を推定することにより,全体のデータ値を決定することができることを示す。 これは、伝統的な自由経済市場において、労働や資本といった要因に基づいて出力の量を推定するために一般的に使用される概念である「textit{production function}」としてモデルのパフォーマンスを定式化することで実現される。 評価手法の正式な証明を提供し、その性能を加速する原理とメカニズムを解明する。 本研究では,本手法の実際の適用性を,分布内データとサンプル外データの両方に対して有効性を示すことによって実証する。 この研究は、機械学習モデルにおいて、大規模にスケールした効率的なデータバリュエーションのコア課題の1つに対処する。

Quantifying the value of data within a machine learning workflow can play a pivotal role in making more strategic decisions in machine learning initiatives. The existing Shapley value based frameworks for data valuation in machine learning are computationally expensive as they require considerable amount of repeated training of the model to obtain the Shapley value. In this paper, we introduce an efficient data valuation framework EcoVal, to estimate the value of data for machine learning models in a fast and practical manner. Instead of directly working with individual data sample, we determine the value of a cluster of similar data points. This value is further propagated amongst all the member cluster points. We show that the overall data value can be determined by estimating the intrinsic and extrinsic value of each data. This is enabled by formulating the performance of a model as a \textit{production function}, a concept which is popularly used to estimate the amount of output based on factors like labor and capital in a traditional free economic market. We provide a formal proof of our valuation technique and elucidate the principles and mechanisms that enable its accelerated performance. We demonstrate the real-world applicability of our method by showcasing its effectiveness for both in-distribution and out-of-sample data. This work addresses one of the core challenges of efficient data valuation at scale in machine learning models.
翻訳日:2024-04-10 01:06:46 公開日:2024-04-07
# GenAD: 次世代のエンドツーエンド自動運転

GenAD: Generative End-to-End Autonomous Driving ( http://arxiv.org/abs/2402.11502v3 )

ライセンス: Link先を確認
Wenzhao Zheng, Ruiqi Song, Xianda Guo, Chenming Zhang, Long Chen, (参考訳) 生センサによる計画結果を直接生成することは、自動運転の長年望まれてきたソリューションであり、近年注目を集めている。 既存のエンドツーエンドの自動運転手法の多くは、この問題を知覚、運動予測、計画に分解している。 しかし、従来のプログレッシブパイプラインは、例えば、エゴカーと他の交通参加者との将来の相互作用と、それ以前の構造軌道を包括的にモデル化することができない。 本稿では,エゴカーと周辺環境が過去の場面でどのように進化するかを予測するために,エンド・ツー・エンドの自動運転の新しいパラダイムを探求する。 我々は、自律運転を生成モデル問題に投入する生成フレームワークGenADを提案する。 本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。 次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。 さらに、エージェントとエゴの動きを捕捉する時間モデルを採用し、より効率的な将来の軌跡を生成する。 GenADは最終的に、インスタンストークンに条件付された学習された構造的潜在空間の分布をサンプリングし、学習された時間モデルを用いて未来を生成することによって、動き予測と計画を同時に行う。 広範に使用されているnuScenesベンチマークの広範な実験により、提案されたGenADは、高効率でビジョン中心のエンドツーエンド自動運転における最先端のパフォーマンスを達成することが示された。 コード:https://github.com/wzzheng/GenAD。

Directly producing planning results from raw sensors has been a long-desired solution for autonomous driving and has attracted increasing attention recently. Most existing end-to-end autonomous driving methods factorize this problem into perception, motion prediction, and planning. However, we argue that the conventional progressive pipeline still cannot comprehensively model the entire traffic evolution process, e.g., the future interaction between the ego car and other traffic participants and the structural trajectory prior. In this paper, we explore a new paradigm for end-to-end autonomous driving, where the key is to predict how the ego car and the surroundings evolve given past scenes. We propose GenAD, a generative framework that casts autonomous driving into a generative modeling problem. We propose an instance-centric scene tokenizer that first transforms the surrounding scenes into map-aware instance tokens. We then employ a variational autoencoder to learn the future trajectory distribution in a structural latent space for trajectory prior modeling. We further adopt a temporal model to capture the agent and ego movements in the latent space to generate more effective future trajectories. GenAD finally simultaneously performs motion prediction and planning by sampling distributions in the learned structural latent space conditioned on the instance tokens and using the learned temporal model to generate futures. Extensive experiments on the widely used nuScenes benchmark show that the proposed GenAD achieves state-of-the-art performance on vision-centric end-to-end autonomous driving with high efficiency. Code: https://github.com/wzzheng/GenAD.
翻訳日:2024-04-10 01:06:46 公開日:2024-04-07
# UniEdit:ビデオモーションと外観編集のための統合チューニングフリーフレームワーク

UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing ( http://arxiv.org/abs/2402.13185v4 )

ライセンス: Link先を確認
Jianhong Bai, Tianyu He, Yuchi Wang, Junliang Guo, Haoji Hu, Zuozhu Liu, Jiang Bian, (参考訳) テキスト誘導ビデオ編集の最近の進歩は、外観編集(例えば、スタイリゼーション)において有望な結果を示した。 しかし、映像編集と画像編集を区別する時間的次元(例えば、食事から手振りまで)の動画モーション編集は過小評価されている。 Inversion-then-generation framework内で,事前学習したテキスト・ツー・ビデオ・ジェネレータのパワーを活用することで,動画の動作と外観編集の両方をサポートするチューニング不要フレームワークUniEditを提案する。 フレーム間およびフレーム間依存関係をそれぞれコードする時間的自己注意層と空間的自己意識層とに基づいて、映像コンテンツを保存しながら、モーション編集を実現するため、テキスト誘導動作とソース特徴をそれぞれ生成するために、補助的な動き参照と再構成分岐を導入する。 得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。 大規模な実験により、UniEditはビデオモーション編集や様々な外観編集のシナリオをカバーし、最先端の手法を超越していることが示された。 私たちのコードは公開されます。

Recent advances in text-guided video editing have showcased promising results in appearance editing (e.g., stylization). However, video motion editing in the temporal dimension (e.g., from eating to waving), which distinguishes video editing from image editing, is underexplored. In this work, we present UniEdit, a tuning-free framework that supports both video motion and appearance editing by harnessing the power of a pre-trained text-to-video generator within an inversion-then-generation framework. To realize motion editing while preserving source video content, based on the insights that temporal and spatial self-attention layers encode inter-frame and intra-frame dependency respectively, we introduce auxiliary motion-reference and reconstruction branches to produce text-guided motion and source features respectively. The obtained features are then injected into the main editing path via temporal and spatial self-attention layers. Extensive experiments demonstrate that UniEdit covers video motion editing and various appearance editing scenarios, and surpasses the state-of-the-art methods. Our code will be publicly available.
翻訳日:2024-04-10 01:06:46 公開日:2024-04-07
# Feature Re-Embedding:計算病理学における基礎モデルレベルパフォーマンスを目指して

Feature Re-Embedding: Towards Foundation Model-Level Performance in Computational Pathology ( http://arxiv.org/abs/2402.17228v2 )

ライセンス: Link先を確認
Wenhao Tang, Fengtao Zhou, Sheng Huang, Xiang Zhu, Yi Zhang, Bo Liu, (参考訳) マルチプル・インスタンス・ラーニング(MIL)は、サブタイピング、診断、予後などを含む、計算病理学において最も広く使われているフレームワークである。 しかし、既存のMILパラダイムは、通常、トレーニング済みのResNetやファンデーションモデルのようなオフラインのインスタンス機能抽出器を必要とする。 このアプローチには、特定の下流タスク内で機能を微調整する機能がなく、適応性とパフォーマンスが制限されている。 この問題に対処するため,インスタンス機能をオンラインで再埋め込みするためのRe-embedded Regional Transformer (R$^2$T)を提案する。 強力な機能抽出器を事前訓練したり、洗練されたインスタンスアグリゲータを設計する既存の作業とは異なり、R$^2$Tはオンラインでインスタンス機能を再組み込むように調整されている。 メインストリームのMILモデルにシームレスに統合できるポータブルモジュールとして機能する。 一般的な計算病理タスクに関する大規模な実験結果は、以下の通りである。 1) 機能再埋め込みにより,ResNet-50機能に基づくMILモデルの性能が基礎モデル機能レベルに向上し,基礎モデル機能の性能がさらに向上する。 2) R$^2$T は様々な MIL モデルにさらなる性能改善をもたらすことができる。 3) R$^2$T-MIL は R$^2$T-enhanced AB-MIL である。

Multiple instance learning (MIL) is the most widely used framework in computational pathology, encompassing sub-typing, diagnosis, prognosis, and more. However, the existing MIL paradigm typically requires an offline instance feature extractor, such as a pre-trained ResNet or a foundation model. This approach lacks the capability for feature fine-tuning within the specific downstream tasks, limiting its adaptability and performance. To address this issue, we propose a Re-embedded Regional Transformer (R$^2$T) for re-embedding the instance features online, which captures fine-grained local features and establishes connections across different regions. Unlike existing works that focus on pre-training powerful feature extractor or designing sophisticated instance aggregator, R$^2$T is tailored to re-embed instance features online. It serves as a portable module that can seamlessly integrate into mainstream MIL models. Extensive experimental results on common computational pathology tasks validate that: 1) feature re-embedding improves the performance of MIL models based on ResNet-50 features to the level of foundation model features, and further enhances the performance of foundation model features; 2) the R$^2$T can introduce more significant performance improvements to various MIL models; 3) R$^2$T-MIL, as an R$^2$T-enhanced AB-MIL, outperforms other latest methods by a large margin.The code is available at: https://github.com/DearCaat/RRT-MIL.
翻訳日:2024-04-10 00:56:58 公開日:2024-04-07
# NiteDR:動的運転シーンのためのクロスビューセンサ協調学習による夜間デライニング

NiteDR: Nighttime Image De-Raining with Cross-View Sensor Cooperative Learning for Dynamic Driving Scenes ( http://arxiv.org/abs/2402.18172v2 )

ライセンス: Link先を確認
Cidan Shi, Lihuang Fang, Han Wu, Xiaoyu Xian, Yukai Shi, Liang Lin, (参考訳) 実際の環境では、屋外イメージングシステムは雨の劣化などの障害によってしばしば影響を受ける。 特に夜間の運転シーンでは、照明が不十分で不均一で暗く照らされ、画質も視界も劣化する。 特に自動運転の分野では、RGBセンサーの視覚知覚能力は、このような厳しいシナリオで著しく低下している。 さらに、運転支援システムは周囲の環境を捕捉・識別する能力の低下に悩まされ、運転安全への脅威が生じる。 シングルモーダルセンサーが捉えたシングルビュー情報は、全体像を包括的に描写することはできない。 これらの課題に対処するため,雨天の夜間運転シーンに適した画像デライニングフレームワークを開発した。 雨の人工物を取り除き、風景表現を豊かにし、有用な情報を復元することを目的としている。 具体的には、異なるセンサが捉えた可視画像と赤外線画像の協調学習を紹介する。 これらのマルチソースデータの相互統合により、画像内のシーンはよりリッチなテクスチャの詳細とコントラストが強化される。 フレームワークの第一段階としてクリーンネットという情報クリーニングモジュールを構築した。 さらに,第2段階としてFusionNetという情報融合モジュールを設計し,クリーンな可視画像と赤外線画像とを融合させた。 このステージ・バイ・ステージ・ラーニング・ストラテジーを用いて,高品質で視覚的知覚の良好な非レイアウト融合画像を得る。 低照度降雨環境における有害運転シナリオにおけるクロスビュー協調学習(CVCL)の有効性を実証した。 提案手法は, 降雨除去アルゴリズムの特定の低照度環境における利用のギャップを解消するものである。

In real-world environments, outdoor imaging systems are often affected by disturbances such as rain degradation. Especially, in nighttime driving scenes, insufficient and uneven lighting shrouds the scenes in darkness, resulting degradation of both the image quality and visibility. Particularly, in the field of autonomous driving, the visual perception ability of RGB sensors experiences a sharp decline in such harsh scenarios. Additionally, driving assistance systems suffer from reduced capabilities in capturing and discerning the surrounding environment, posing a threat to driving safety. Single-view information captured by single-modal sensors cannot comprehensively depict the entire scene. To address these challenges, we developed an image de-raining framework tailored for rainy nighttime driving scenes. It aims to remove rain artifacts, enrich scene representation, and restore useful information. Specifically, we introduce cooperative learning between visible and infrared images captured by different sensors. By cross-view fusion of these multi-source data, the scene within the images gains richer texture details and enhanced contrast. We constructed an information cleaning module called CleanNet as the first stage of our framework. Moreover, we designed an information fusion module called FusionNet as the second stage to fuse the clean visible images with infrared images. Using this stage-by-stage learning strategy, we obtain de-rained fusion images with higher quality and better visual perception. Extensive experiments demonstrate the effectiveness of our proposed Cross-View Cooperative Learning (CVCL) in adverse driving scenarios in low-light rainy environments. The proposed approach addresses the gap in the utilization of existing rain removal algorithms in specific low-light conditions.
翻訳日:2024-04-10 00:56:58 公開日:2024-04-07
# 微細拡散:1万のクラスで微細な画像生成のための拡散モデルのスケールアップ

FineDiffusion: Scaling up Diffusion Models for Fine-grained Image Generation with 10,000 Classes ( http://arxiv.org/abs/2402.18331v2 )

ライセンス: Link先を確認
Ziying Pan, Kun Wang, Gang Li, Feihong He, Xiwang Li, Yongxuan Lai, (参考訳) 拡散モデルに基づくクラス条件画像生成は高品質で多様な画像を生成することで有名である。 しかし、これまでのほとんどの取り組みは、イメージNet-1kの1000のクラスなど、一般的なカテゴリのイメージ生成に重点を置いていた。 より困難なタスク、大規模なきめ細かい画像生成は、探索すべき境界のままである。 本研究では,1万カテゴリの大規模きめ細かな画像生成にスケールする大規模事前学習拡散モデルに対して,ファインディフュージョン(FinDiffusion)と呼ばれるパラメータ効率のよい手法を提案する。 FineDiffusionは、微調整されたクラス埋め込み、バイアス項、正規化レイヤのパラメータのみによって、トレーニングを著しく加速し、ストレージオーバーヘッドを低減する。 細粒度分類の画質向上を図るため,特に細粒度分類に特化しているスーパークラス条件付きガイダンスを用いて,従来の分類器不要のガイダンスを代替する,微細粒度画像生成のための新しいサンプリング手法を提案する。 フル微調整と比較すると、ファインディフュージョンは1.56倍のトレーニングスピードアップを達成し、総モデルのパラメータの1.77%しか保存せず、1万クラスの画像生成で9.776の最先端のFIDを達成する必要がある。 大規模定性的および定量的実験は,他のパラメータ効率の良い微調整法と比較して,本手法の優位性を示した。 コードとより生成された結果は、プロジェクトのWebサイト(https://finediffusion.github.io/)で公開されています。

The class-conditional image generation based on diffusion models is renowned for generating high-quality and diverse images. However, most prior efforts focus on generating images for general categories, e.g., 1000 classes in ImageNet-1k. A more challenging task, large-scale fine-grained image generation, remains the boundary to explore. In this work, we present a parameter-efficient strategy, called FineDiffusion, to fine-tune large pre-trained diffusion models scaling to large-scale fine-grained image generation with 10,000 categories. FineDiffusion significantly accelerates training and reduces storage overhead by only fine-tuning tiered class embedder, bias terms, and normalization layers' parameters. To further improve the image generation quality of fine-grained categories, we propose a novel sampling method for fine-grained image generation, which utilizes superclass-conditioned guidance, specifically tailored for fine-grained categories, to replace the conventional classifier-free guidance sampling. Compared to full fine-tuning, FineDiffusion achieves a remarkable 1.56x training speed-up and requires storing merely 1.77% of the total model parameters, while achieving state-of-the-art FID of 9.776 on image generation of 10,000 classes. Extensive qualitative and quantitative experiments demonstrate the superiority of our method compared to other parameter-efficient fine-tuning methods. The code and more generated results are available at our project website: https://finediffusion.github.io/.
翻訳日:2024-04-10 00:56:58 公開日:2024-04-07
# デュアル露光HDRイメージングにおける照度推定の最適化

Optimizing Illuminant Estimation in Dual-Exposure HDR Imaging ( http://arxiv.org/abs/2403.02449v2 )

ライセンス: Link先を確認
Mahmoud Afifi, Zhenhua Hu, Liang Liang, (参考訳) ハイダイナミックレンジ(HDR)イメージングでは、同じシーンの一連のフレームをそれぞれ異なる露光条件で捉え、光のダイナミックレンジを広げる。 これは、カメライメージ信号プロセッサ(ISP)において、長い露光と短い露光を同時にキャプチャするスタッガーされたHDRセンサをバーストキャプチャまたは使用することで実現される。 カメラISPパイプライン内では、シーン内のグローバル照度の色を推定するために、照度推定が重要なステップである。 この推定は、最終画像の望ましくないカラーキャストを取り除くために、カメラISPホワイトバランスモジュールで使用される。 HDRパイプラインでキャプチャされた複数のフレームにもかかわらず、従来の照度推定法はシーンの1つのフレームにのみ依存することが多い。 本稿では,異なる露光時間でキャプチャしたフレームからの情報を活用する方法について検討する。 具体的には、デュアル露光画像から抽出した簡単な特徴を導入し、デュアル露光特徴 (DEF) と呼ばれる照度推定器を誘導する。 DEFの効率性を検証するために,提案したDefを用いた2つの照度推定器を用いた。 1)多層パーセプトロンネットワーク(MLP) 2) コンボリューションカラーコンステンシー(CCC)を改良して,ECCCと呼ぶDEFを統合する。 EMLPとECCCはどちらも有望な結果を達成するが、場合によっては、EMLPには数百のパラメータ、ECCCには数千のパラメータしか必要としない。

High dynamic range (HDR) imaging involves capturing a series of frames of the same scene, each with different exposure settings, to broaden the dynamic range of light. This can be achieved through burst capturing or using staggered HDR sensors that capture long and short exposures simultaneously in the camera image signal processor (ISP). Within camera ISP pipeline, illuminant estimation is a crucial step aiming to estimate the color of the global illuminant in the scene. This estimation is used in camera ISP white-balance module to remove undesirable color cast in the final image. Despite the multiple frames captured in the HDR pipeline, conventional illuminant estimation methods often rely only on a single frame of the scene. In this paper, we explore leveraging information from frames captured with different exposure times. Specifically, we introduce a simple feature extracted from dual-exposure images to guide illuminant estimators, referred to as the dual-exposure feature (DEF). To validate the efficiency of DEF, we employed two illuminant estimators using the proposed DEF: 1) a multilayer perceptron network (MLP), referred to as exposure-based MLP (EMLP), and 2) a modified version of the convolutional color constancy (CCC) to integrate our DEF, that we call ECCC. Both EMLP and ECCC achieve promising results, in some cases surpassing prior methods that require hundreds of thousands or millions of parameters, with only a few hundred parameters for EMLP and a few thousand parameters for ECCC.
翻訳日:2024-04-10 00:47:03 公開日:2024-04-07
# 過去をブレンディング・リファインディングした記憶の進化

Ever-Evolving Memory by Blending and Refining the Past ( http://arxiv.org/abs/2403.04787v2 )

ライセンス: Link先を確認
Seo Hyun Kim, Keummin Ka, Yohan Jo, Seung-won Hwang, Dongha Lee, Jinyoung Yeo, (参考訳) 人間のようなチャットボットでは、長期記憶の構築が不可欠である。 しかし、現在の大きな言語モデルは、しばしばこの機能を欠いているため、重要なユーザ情報を欠いたり、同じ情報を冗長に要求したりすることで、会話の品質を低下させる。 メモリを効果的に構築するには、障害情報を忘れる能力を有しながら、過去の情報をシームレスに接続し、情報を提示することが重要である。 これらの課題に対処するため,長期会話のための新しい記憶システム CREEM を提案する。 現在のセッションのみに基づいてメモリを構築する既存のアプローチの改善により、CREEMはメモリ形成中に過去のメモリをブレンドする。 さらに、冗長または時代遅れの情報を処理するための精錬プロセスを導入します。 従来のパラダイムとは異なり、応答とメモリ構成は分離不可能なタスクだと考えています。 新しい記憶を作り出すブレンディングプロセスは、過去と現在の間の接続を知らせることで、応答生成の推論ステップとしても機能する。 評価により、CREEMはマルチセッションパーソナライズされた対話における記憶と応答の質を向上させる。

For a human-like chatbot, constructing a long-term memory is crucial. However, current large language models often lack this capability, leading to instances of missing important user information or redundantly asking for the same information, thereby diminishing conversation quality. To effectively construct memory, it is crucial to seamlessly connect past and present information, while also possessing the ability to forget obstructive information. To address these challenges, we propose CREEM, a novel memory system for long-term conversation. Improving upon existing approaches that construct memory based solely on current sessions, CREEM blends past memories during memory formation. Additionally, we introduce a refining process to handle redundant or outdated information. Unlike traditional paradigms, we view responding and memory construction as inseparable tasks. The blending process, which creates new memories, also serves as a reasoning step for response generation by informing the connection between past and present. Through evaluation, we demonstrate that CREEM enhances both memory and response qualities in multi-session personalized dialogues.
翻訳日:2024-04-10 00:47:03 公開日:2024-04-07
# コードによる大規模言語モデルの安全性向上への挑戦

Exploring Safety Generalization Challenges of Large Language Models via Code ( http://arxiv.org/abs/2403.07865v3 )

ライセンス: Link先を確認
Qibing Ren, Chang Gao, Jing Shao, Junchi Yan, Xin Tan, Yu Qiao, Wai Lam, Lizhuang Ma, (参考訳) LLM(Large Language Models)の急速な進歩は、顕著な生成能力をもたらしたが、その潜在的な誤用に対する懸念も持ち上がった。 教師付き微調整や人間からのフィードバックからの強化学習といった戦略は安全性を高めてきたが、これらの手法は主に自然言語に焦点を絞っており、他の領域に一般化しない可能性がある。 本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。 GPT-4、Claude-2、Llama-2シリーズを含む最先端のLLMに関する包括的な研究は、これらのモデルのコード入力に対する一般的な安全性の脆弱性を明らかにしている。 CodeAttackと自然言語の分布ギャップが大きくなると、自然言語入力をデータ構造で符号化するなど、安全性が低下することがわかった。 さらに,CodeAttackの成功に関する仮説として,(1)コードトレーニング中にLLMが取得したミスアライメントバイアス,(2)コードアウトプットの安全性に関する限定的な自己評価能力,の2つを挙げる。 最後に、潜在的な緩和策を分析する。 これらの知見は、コードドメインにおける新たな安全性リスクと、LLMのコード機能に合わせたより堅牢な安全性アライメントアルゴリズムの必要性を浮き彫りにしている。

The rapid advancement of Large Language Models (LLMs) has brought about remarkable generative capabilities but also raised concerns about their potential misuse. While strategies like supervised fine-tuning and reinforcement learning from human feedback have enhanced their safety, these methods primarily focus on natural languages, which may not generalize to other domains. This paper introduces CodeAttack, a framework that transforms natural language inputs into code inputs, presenting a novel environment for testing the safety generalization of LLMs. Our comprehensive studies on state-of-the-art LLMs including GPT-4, Claude-2, and Llama-2 series reveal a common safety vulnerability of these models against code input: CodeAttack bypasses the safety guardrails of all models more than 80% of the time. We find that a larger distribution gap between CodeAttack and natural language leads to weaker safety generalization, such as encoding natural language input with data structures. Furthermore, we give two hypotheses about the success of CodeAttack: (1) the misaligned bias acquired by LLMs during code training, prioritizing code completion over avoiding the potential safety risk; (2) the limited self-evaluation capability regarding the safety of their code outputs. Finally, we analyze potential mitigation measures. These findings highlight new safety risks in the code domain and the need for more robust safety alignment algorithms to match the code capabilities of LLMs.
翻訳日:2024-04-10 00:47:03 公開日:2024-04-07
# スプリングマス3次元ガウスによる弾性物体の復元とシミュレーション

Reconstruction and Simulation of Elastic Objects with Spring-Mass 3D Gaussians ( http://arxiv.org/abs/2403.09434v2 )

ライセンス: Link先を確認
Licheng Zhong, Hong-Xing Yu, Jiajun Wu, Yunzhu Li, (参考訳) 視覚的な観察から弾性物体を再構成し、シミュレーションすることは、コンピュータビジョンやロボット工学の応用に不可欠である。 3Dガウスやモデル3Dの外観や幾何学といった既存の手法では、物体の物理的特性を推定し、それらをシミュレートする能力は欠如している。 中心となる課題は、表現的だが効率的な物理力学モデルを統合することである。 複数の視点からオブジェクトのビデオから弾性物体を再構成・シミュレーションするための3次元物理オブジェクト表現であるSpring-Gausを提案する。 特に、3次元Spring-Massモデルを3次元ガウスカーネルに開発・統合し、オブジェクトの視覚的外観、形状、物理力学の再構築を可能にする。 本手法は,様々な初期状態と環境特性下での将来の予測とシミュレーションを可能にする。 合成と実世界の両方のデータセット上でSpring-Gausを評価し,弾性物体の正確な再構成とシミュレーションを実証した。 プロジェクトページ: https://zlicheng.com/spring_gaus.com

Reconstructing and simulating elastic objects from visual observations is crucial for applications in computer vision and robotics. Existing methods, such as 3D Gaussians, model 3D appearance and geometry, but lack the ability to estimate physical properties for objects and simulate them. The core challenge lies in integrating an expressive yet efficient physical dynamics model. We propose Spring-Gaus, a 3D physical object representation for reconstructing and simulating elastic objects from videos of the object from multiple viewpoints. In particular, we develop and integrate a 3D Spring-Mass model into 3D Gaussian kernels, enabling the reconstruction of the visual appearance, shape, and physical dynamics of the object. Our approach enables future prediction and simulation under various initial states and environmental properties. We evaluate Spring-Gaus on both synthetic and real-world datasets, demonstrating accurate reconstruction and simulation of elastic objects. Project page: https://zlicheng.com/spring_gaus.
翻訳日:2024-04-10 00:37:15 公開日:2024-04-07
# 任意多視点画像からの人間のメッシュ復元

Human Mesh Recovery from Arbitrary Multi-view Images ( http://arxiv.org/abs/2403.12434v3 )

ライセンス: Link先を確認
Xiaoben Li, Mancheng Meng, Ziyan Wu, Terrence Chen, Fan Yang, Dinggang Shen, (参考訳) 任意のマルチビュー画像からのヒューマンメッシュリカバリには、任意のカメラポーズと、任意の数のカメラビューの2つの特徴がある。 可変性のため、このタスクに取り組むために統一されたフレームワークを設計することは困難である。 この課題は、フレキシビリティを維持しつつ、任意のカメラのポーズを同時に推定し、任意のマルチビューイメージから人間のメッシュを復元できるというジレンマとして要約できる。 このジレンマを解決するために、任意の多視点画像から統一人間メッシュ回復(U-HMR)を分離・征服するフレームワークを提案する。 特にU-HMRは、分離された構造と、カメラとボディーデカップリング(CBD)、カメラポーズ推定(CPE)、任意のビュー融合(AVF)の2つの主要コンポーネントから構成される。 カメラのポーズと人体メッシュが互いに独立しているため、CBDはそれらを2つのサブタスクに分割し、2つのサブネットワーク(ie, CPE, AVF)でそれぞれ処理する。 CPEでは、各カメラのポーズは他のカメラと無関係であるため、すべてのビューを並列に処理するために共有MLPを採用する。 AVFでは、マルチビュー情報を融合して融合操作をビュー数に依存しないものにするため、SMPLパラメータクエリトークンを用いたトランスフォーマーデコーダを導入し、メッシュリカバリのためのクロスビュー機能を抽出する。 提案するフレームワークの有効性と各コンポーネントの効果を実証するため,Human3.6M,MPI-INF-3DHP,TotalCaptureの3つの公開データセットに対して広範な実験を行った。

Human mesh recovery from arbitrary multi-view images involves two characteristics: the arbitrary camera poses and arbitrary number of camera views. Because of the variability, designing a unified framework to tackle this task is challenging. The challenges can be summarized as the dilemma of being able to simultaneously estimate arbitrary camera poses and recover human mesh from arbitrary multi-view images while maintaining flexibility. To solve this dilemma, we propose a divide and conquer framework for Unified Human Mesh Recovery (U-HMR) from arbitrary multi-view images. In particular, U-HMR consists of a decoupled structure and two main components: camera and body decoupling (CBD), camera pose estimation (CPE), and arbitrary view fusion (AVF). As camera poses and human body mesh are independent of each other, CBD splits the estimation of them into two sub-tasks for two individual sub-networks (ie, CPE and AVF) to handle respectively, thus the two sub-tasks are disentangled. In CPE, since each camera pose is unrelated to the others, we adopt a shared MLP to process all views in a parallel way. In AVF, in order to fuse multi-view information and make the fusion operation independent of the number of views, we introduce a transformer decoder with a SMPL parameters query token to extract cross-view features for mesh recovery. To demonstrate the efficacy and flexibility of the proposed framework and effect of each component, we conduct extensive experiments on three public datasets: Human3.6M, MPI-INF-3DHP, and TotalCapture.
翻訳日:2024-04-10 00:37:15 公開日:2024-04-07
# DetToolChain:MLLMのアンリーシュ検出機能のための新しいプロンプトパラダイム

DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM ( http://arxiv.org/abs/2403.12488v2 )

ライセンス: Link先を確認
Yixuan Wu, Yizhou Wang, Shixiang Tang, Wenhao Wu, Tong He, Wanli Ouyang, Jian Wu, Philip Torr, (参考訳) 本稿では,GPT-4V や Gemini などのマルチモーダル大規模言語モデル (MLLM) のゼロショットオブジェクト検出能力を解き放つために,新しいプロンプトパラダイムである DetToolChain を提案する。 提案手法は,高精度検出にヒントを得た検出プロンプトツールキットと,これらのプロンプトを実装するための新しいChain-of-Thoughtから構成される。 特に、ツールキットのプロンプトは、MLLMが地域情報(例えば、ズームイン)に集中するように誘導し、測定基準(例えば、オーバレイの定規とコンパス)に従って座標を読み、コンテキスト情報(例えば、シーングラフのオーバーレイ)から推測するように設計されている。 これらのツールに基づいて、新しい検出チェーンはタスクを単純なサブタスクに自動的に分解し、予測を診断し、プログレッシブボックスの改良計画を立てる。 本フレームワークの有効性は,検出タスク,特にハードケースの幅広い範囲で実証されている。 既存の最先端の手法と比較して、GPT-4VとDetToolChainは、MS COCO上の最先端オブジェクト検出器を+21.5%改善し、オープン語彙検出のための新しいクラスセット +24.23% Acc on RefCOCO val set for zero-shot Reference Expression comprehension, +14.5% AP on D-cube describe object detection FULL setting。

We present DetToolChain, a novel prompting paradigm, to unleash the zero-shot object detection ability of multimodal large language models (MLLMs), such as GPT-4V and Gemini. Our approach consists of a detection prompting toolkit inspired by high-precision detection priors and a new Chain-of-Thought to implement these prompts. Specifically, the prompts in the toolkit are designed to guide the MLLM to focus on regional information (e.g., zooming in), read coordinates according to measure standards (e.g., overlaying rulers and compasses), and infer from the contextual information (e.g., overlaying scene graphs). Building upon these tools, the new detection chain-of-thought can automatically decompose the task into simple subtasks, diagnose the predictions, and plan for progressive box refinements. The effectiveness of our framework is demonstrated across a spectrum of detection tasks, especially hard cases. Compared to existing state-of-the-art methods, GPT-4V with our DetToolChain improves state-of-the-art object detectors by +21.5% AP50 on MS COCO Novel class set for open-vocabulary detection, +24.23% Acc on RefCOCO val set for zero-shot referring expression comprehension, +14.5% AP on D-cube describe object detection FULL setting.
翻訳日:2024-04-10 00:37:15 公開日:2024-04-07
# ゼロショット一般化によるロボット運動計画のためのフェデレーション強化学習

Federated reinforcement learning for robot motion planning with zero-shot generalization ( http://arxiv.org/abs/2403.13245v2 )

ライセンス: Link先を確認
Zhenyuan Yuan, Siyuan Xu, Minghui Zhu, (参考訳) 本稿では,ゼロショット一般化によるロボット動作計画の制御ポリシの学習,すなわち学習方針が新しい環境に展開される際には,データ収集やポリシー適応が不要である,という課題について考察する。 我々は,複数の学習者と中央サーバ,すなわちクラウドの協調学習を,生データを共有せずに実現する,連合型強化学習フレームワークを開発した。 各繰り返しにおいて、各学習者はローカル制御ポリシーとそれに対応する正規化到着時刻をクラウドにアップロードし、学習者のグローバルな最適度を計算し、学習者に最適なポリシーをブロードキャストする。 次に各学習者は、ローカルコントロールポリシーとクラウドからのコントロールを次のイテレーションで選択する。 提案するフレームワークは、到着時間と安全に関するゼロショットの一般化を保証する。 ほぼ公理収束、ほぼ一致、パレート改善、最適性ギャップに関する理論的保証も提供される。 モンテカルロシミュレーションにより提案手法の評価を行った。

This paper considers the problem of learning a control policy for robot motion planning with zero-shot generalization, i.e., no data collection and policy adaptation is needed when the learned policy is deployed in new environments. We develop a federated reinforcement learning framework that enables collaborative learning of multiple learners and a central server, i.e., the Cloud, without sharing their raw data. In each iteration, each learner uploads its local control policy and the corresponding estimated normalized arrival time to the Cloud, which then computes the global optimum among the learners and broadcasts the optimal policy to the learners. Each learner then selects between its local control policy and that from the Cloud for next iteration. The proposed framework leverages on the derived zero-shot generalization guarantees on arrival time and safety. Theoretical guarantees on almost-sure convergence, almost consensus, Pareto improvement and optimality gap are also provided. Monte Carlo simulation is conducted to evaluate the proposed framework.
翻訳日:2024-04-10 00:37:15 公開日:2024-04-07
# カーネルから見た2層ニューラルネットワークの平均場解析

Mean-field Analysis on Two-layer Neural Networks from a Kernel Perspective ( http://arxiv.org/abs/2403.14917v2 )

ライセンス: Link先を確認
Shokichi Takakura, Taiji Suzuki, (参考訳) 本稿では,カーネル方式のレンズを用いて,平均場状態における2層ニューラルネットワークの特徴学習能力について検討する。 第1層によって誘導されるカーネルのダイナミクスに焦点を合わせるため、第2層が第1層よりもはるかに速く動く2時間スケールの制限を利用する。 この限界において、学習問題は本質的なカーネル上の最小化問題に還元される。 次に、平均場ランゲヴィンダイナミクスと導出時間と粒子の離散化誤差のグローバル収束を示す。 また、2層ニューラルネットワークは、どのカーネル手法よりも効率的に複数の再生カーネルヒルベルト空間の結合を学習でき、ニューラルネットワークはターゲット関数と整合するデータ依存カーネルを取得できることを示した。 さらに,大域的最適度に収束するラベルノイズプロシージャを開発し,その自由度が暗黙の正規化として現れることを示す。

In this paper, we study the feature learning ability of two-layer neural networks in the mean-field regime through the lens of kernel methods. To focus on the dynamics of the kernel induced by the first layer, we utilize a two-timescale limit, where the second layer moves much faster than the first layer. In this limit, the learning problem is reduced to the minimization problem over the intrinsic kernel. Then, we show the global convergence of the mean-field Langevin dynamics and derive time and particle discretization error. We also demonstrate that two-layer neural networks can learn a union of multiple reproducing kernel Hilbert spaces more efficiently than any kernel methods, and neural networks acquire data-dependent kernel which aligns with the target function. In addition, we develop a label noise procedure, which converges to the global optimum and show that the degrees of freedom appears as an implicit regularization.
翻訳日:2024-04-10 00:27:26 公開日:2024-04-07
# 解剖画像平面を用いた医用画像データの自己監督学習

Self-Supervised Learning for Medical Image Data with Anatomy-Oriented Imaging Planes ( http://arxiv.org/abs/2403.16499v2 )

ライセンス: Link先を確認
Tianwei Zhang, Dong Wei, Mengmeng Zhu, Shi Gu, Yefeng Zheng, (参考訳) 自己教師付き学習は、限られたアノテーションで目標タスクの学習を伝達する前に、ラベルのないデータ上でディープネットワークを事前訓練するための強力なツールとして登場した。 事前学習の前提条件と目標課題の関連性は、伝達学習の成功に不可欠である。 医用画像データ(例えば3次元画像)の特性を利用するための様々な前提課題が提案されている。 しかし、従来の研究では、解剖学的指向性イメージングプレーン(例えば、標準の心臓磁気共鳴イメージングビュー)によるデータにはほとんど注意を払わなかった。 これらのイメージングプレーンは、画像化された臓器の解剖に基づいて定義されるため、この情報を効果的に活用するプリテキストタスクは、ネットワークを事前訓練して、興味ある臓器に関する知識を得ることができる。 本研究では,画像平面の空間的関係に基づく医用画像データ群に対する2つの補完的前提課題を提案する。 1つ目は、画像平面間の相対的な向きを学習し、交差する線を後退させるように実装することである。 2つ目は、平行イメージングプレーンを利用して、スタック内の相対的なスライス位置を後退させる。 両方のプリテキストタスクは概念的には単純で実装が容易であり、マルチタスク学習と組み合わせて表現学習を改善することができる。 2つの解剖学的構造(ハートと膝)と代表的目標タスク(セマンティックセグメンテーションと分類)に関する詳細な実験は、提案したプレテキストタスクが、ターゲットタスクの大幅な性能向上と、他の最近のアプローチよりも優れた深層ネットワークの事前訓練に有効であることを示す。

Self-supervised learning has emerged as a powerful tool for pretraining deep networks on unlabeled data, prior to transfer learning of target tasks with limited annotation. The relevance between the pretraining pretext and target tasks is crucial to the success of transfer learning. Various pretext tasks have been proposed to utilize properties of medical image data (e.g., three dimensionality), which are more relevant to medical image analysis than generic ones for natural images. However, previous work rarely paid attention to data with anatomy-oriented imaging planes, e.g., standard cardiac magnetic resonance imaging views. As these imaging planes are defined according to the anatomy of the imaged organ, pretext tasks effectively exploiting this information can pretrain the networks to gain knowledge on the organ of interest. In this work, we propose two complementary pretext tasks for this group of medical image data based on the spatial relationship of the imaging planes. The first is to learn the relative orientation between the imaging planes and implemented as regressing their intersecting lines. The second exploits parallel imaging planes to regress their relative slice locations within a stack. Both pretext tasks are conceptually straightforward and easy to implement, and can be combined in multitask learning for better representation learning. Thorough experiments on two anatomical structures (heart and knee) and representative target tasks (semantic segmentation and classification) demonstrate that the proposed pretext tasks are effective in pretraining deep networks for remarkably boosted performance on the target tasks, and superior to other recent approaches.
翻訳日:2024-04-10 00:27:26 公開日:2024-04-07
# 2ストリームから1ストリームへ:相互プロンプト学習と知識蒸留による効率的なRGB-Tトラッキング

From Two-Stream to One-Stream: Efficient RGB-T Tracking via Mutual Prompt Learning and Knowledge Distillation ( http://arxiv.org/abs/2403.16834v2 )

ライセンス: Link先を確認
Yang Luo, Xiqing Guo, Hao Li, (参考訳) 可視光と熱赤外変調の相補的な性質から、可視光画像と熱画像(RGB-T追跡と呼ばれる)の融合に基づく物体追跡は近年、研究者から注目されている。 より包括的な情報統合を低コストで実現する方法は、研究者が検討している問題である。 視覚的プロンプト学習に触発されて,クロスモーダルな相互プロンプト学習に基づく新しい2ストリームRGB-T追跡アーキテクチャを設計し,このモデルを教師として利用し,知識蒸留技術による高速学習のための1ストリームの学生モデルを指導した。 また,RGB-Tトラッカーと比較して,教師モデルに匹敵する精度の学習者モデルは,教師モデルよりも3倍以上高速な推論速度を実現した。 (受理した場合はコードは利用可能。)

Due to the complementary nature of visible light and thermal infrared modalities, object tracking based on the fusion of visible light images and thermal images (referred to as RGB-T tracking) has received increasing attention from researchers in recent years. How to achieve more comprehensive fusion of information from the two modalities at a lower cost has been an issue that researchers have been exploring. Inspired by visual prompt learning, we designed a novel two-stream RGB-T tracking architecture based on cross-modal mutual prompt learning, and used this model as a teacher to guide a one-stream student model for rapid learning through knowledge distillation techniques. Extensive experiments have shown that, compared to similar RGB-T trackers, our designed teacher model achieved the highest precision rate, while the student model, with comparable precision rate to the teacher model, realized an inference speed more than three times faster than the teacher model.(Codes will be available if accepted.)
翻訳日:2024-04-10 00:27:26 公開日:2024-04-07
# 最適配置の統計的推測 I:規則性とその意味

Statistical Inference of Optimal Allocations I: Regularities and their Implications ( http://arxiv.org/abs/2403.18248v2 )

ライセンス: Link先を確認
Kai Feng, Han Hong, (参考訳) 本稿では,統計的最適割り当て問題を解くための機能的微分可能性アプローチを開発する。 まず、ソート作用素の一般性質の詳細な解析を通して、値関数のアダマール微分可能性(英語版)を導出する。 我々の枠組みの中心はハウスドルフ測度の概念と幾何学的測度理論の領域と余積積分公式である。 アダマール微分可能性の結果に基づいて、2段階のROC曲線推定器と同様に、関数デルタ法を用いて2段階の制約付き最適割り当て問題に対する値関数プロセスの漸近特性を直接導出する方法を実証する。 さらに、凸関数と局所リプシッツ関数の幾何学的汎関数解析から深い洞察を生かし、最適割り当て問題の値関数に対する追加の一般Fr\echet微分可能性結果を得る。 これらの魅力的な発見は、最適社会福祉の第一次近似を慎重に研究する動機となっている。 本稿では,値関数に対する2重/脱バイアス推定器を提案する。 重要なことは、アダマール微分可能性セクションで概説された条件は、より速い収束率を正当化するプラグイン法を用いて統計分類文献からマージンの仮定を検証することである。

In this paper, we develop a functional differentiability approach for solving statistical optimal allocation problems. We first derive Hadamard differentiability of the value function through a detailed analysis of the general properties of the sorting operator. Central to our framework are the concept of Hausdorff measure and the area and coarea integration formulas from geometric measure theory. Building on our Hadamard differentiability results, we demonstrate how the functional delta method can be used to directly derive the asymptotic properties of the value function process for binary constrained optimal allocation problems, as well as the two-step ROC curve estimator. Moreover, leveraging profound insights from geometric functional analysis on convex and local Lipschitz functionals, we obtain additional generic Fr\'echet differentiability results for the value functions of optimal allocation problems. These compelling findings motivate us to study carefully the first order approximation of the optimal social welfare. In this paper, we then present a double / debiased estimator for the value functions. Importantly, the conditions outlined in the Hadamard differentiability section validate the margin assumption from the statistical classification literature employing plug-in methods that justifies a faster convergence rate.
翻訳日:2024-04-10 00:27:26 公開日:2024-04-07
# RankMamba: トランスフォーマー時代におけるMambaのドキュメントランキングパフォーマンスのベンチマーク

RankMamba: Benchmarking Mamba's Document Ranking Performance in the Era of Transformers ( http://arxiv.org/abs/2403.18276v2 )

ライセンス: Link先を確認
Zhichao Xu, (参考訳) トランスフォーマー構造は、自然言語処理(NLP)、コンピュータビジョン(CV)、情報検索(IR)など、複数の応用機械学習コミュニティで大きな成功を収めている。 トランスフォーマーアーキテクチャのコアメカニズム -- 注意には、トレーニングで$O(n^2)$時間複雑さと推論で$O(n)$時間複雑さが必要です。 Flash AttentionやMulti-query Attentionといった、アテンションメカニズムのスケーラビリティを改善するために、多くの作業が提案されている。 異なる作業ラインは、注意を置き換えるための新しいメカニズムを設計することを目的としています。 近年、状態空間モデルに基づく有名なモデル構造であるMambaは、複数のシーケンスモデリングタスクにおいてトランスフォーマー等価のパフォーマンスを達成した。 そこで本研究では,古典的IRタスクのレンズ(文書ランキング)を用いて,Shamambaの有効性について検討する。 リランカモデルは、クエリとドキュメントを入力として、スカラー関連スコアを予測する。 このタスクは、長いコンテキスト入力を理解し、クエリとドキュメントトークン間の相互作用をキャプチャする言語モデルの能力を必要とする。 その結果,(1) ガンバモデルは同じトレーニングレシピを持つトランスフォーマーモデルと比較して競争性能が向上し,(2) フラッシュアテンションなどの効率的なトランスフォーマー実装と比較してトレーニングスループットも低いことがわかった。 この研究が、他の古典的赤外線タスクにおいて、Mambaモデルを探索するための出発点になることを期待している。 私たちのコード実装とトレーニングされたチェックポイントは、再現性を促進するために公開されています(https://github.com/zhichaoxu-shufe/RankMamba)。

Transformer structure has achieved great success in multiple applied machine learning communities, such as natural language processing (NLP), computer vision (CV) and information retrieval (IR). Transformer architecture's core mechanism -- attention requires $O(n^2)$ time complexity in training and $O(n)$ time complexity in inference. Many works have been proposed to improve the attention mechanism's scalability, such as Flash Attention and Multi-query Attention. A different line of work aims to design new mechanisms to replace attention. Recently, a notable model structure -- Mamba, which is based on state space models, has achieved transformer-equivalent performance in multiple sequence modeling tasks. In this work, we examine \mamba's efficacy through the lens of a classical IR task -- document ranking. A reranker model takes a query and a document as input, and predicts a scalar relevance score. This task demands the language model's ability to comprehend lengthy contextual inputs and to capture the interaction between query and document tokens. We find that (1) Mamba models achieve competitive performance compared to transformer-based models with the same training recipe; (2) but also have a lower training throughput in comparison to efficient transformer implementations such as flash attention. We hope this study can serve as a starting point to explore Mamba models in other classical IR tasks. Our code implementation and trained checkpoints are made public to facilitate reproducibility (https://github.com/zhichaoxu-shufe/RankMamba).
翻訳日:2024-04-10 00:16:23 公開日:2024-04-07
# リジェクションは信頼性を向上する:知識フィードバックから未知の質問をRLで除去するLLMの訓練

Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback ( http://arxiv.org/abs/2403.18349v2 )

ライセンス: Link先を確認
Hongshen Xu, Zichen Zhu, Situo Zhang, Da Ma, Shuai Fan, Lu Chen, Kai Yu, (参考訳) 大きな言語モデル(LLM)は、知識の範囲を超えて質問を識別する制限のため、幻覚として知られる誤った出力を生成することが多い。 幻覚への対処は研究の焦点となっているが、従来の取り組みは主に拒絶機構の重要性を考慮せずに正しさを高めることに集中していた。 本稿では,モデル信頼性の概念を,対応する指標とともに導入し,拒絶の役割を包括的に検討する。 これらの指標は、モデルが正確な応答を提供する能力を測定し、知識境界を超える質問を十分に拒否し、幻覚を最小化する。 本稿では,LLMの信頼性を向上させるために,知識フィードバックからの強化学習(Reinforcement Learning from Knowledge Feedback, RLKF)と呼ばれる新しいアライメントフレームワークを提案する。 RLKFは知識フィードバックを活用してモデルの知識境界を動的に決定し、信頼性の高い報酬モデルを訓練し、知識外質問の拒否を促す。 数学的な質問に対する実験結果から、LLM信頼性を著しく向上させるRLKFの有効性が確認された。

Large Language Models (LLMs) often generate erroneous outputs, known as hallucinations, due to their limitations in discerning questions beyond their knowledge scope. While addressing hallucination has been a focal point in research, previous efforts primarily concentrate on enhancing correctness without giving due consideration to the significance of rejection mechanisms. In this paper, we conduct a comprehensive examination of the role of rejection, introducing the notion of model reliability along with corresponding metrics. These metrics measure the model's ability to provide accurate responses while adeptly rejecting questions exceeding its knowledge boundaries, thereby minimizing hallucinations. To improve the inherent reliability of LLMs, we present a novel alignment framework called Reinforcement Learning from Knowledge Feedback (RLKF). RLKF leverages knowledge feedback to dynamically determine the model's knowledge boundary and trains a reliable reward model to encourage the refusal of out-of-knowledge questions. Experimental results on mathematical questions affirm the substantial efficacy of RLKF in significantly enhancing LLM reliability.
翻訳日:2024-04-10 00:16:23 公開日:2024-04-07
# GraphAD: エンドツーエンドの自動運転のためのインタラクションシーングラフ

GraphAD: Interaction Scene Graph for End-to-end Autonomous Driving ( http://arxiv.org/abs/2403.19098v2 )

ライセンス: Link先を確認
Yunpeng Zhang, Deheng Qian, Ding Li, Yifeng Pan, Yong Chen, Zhenbao Liang, Zhiyao Zhang, Shurui Zhang, Hongxu Li, Maolei Fu, Yun Ye, Zhujin Liang, Yi Shan, Dalong Du, (参考訳) エゴ車、道路エージェント、地図要素間の複雑な相互作用をモデル化することは、安全クリティカルな自動運転にとって重要な要素である。 エンド・ツー・エンドの自動運転に関するこれまでの研究は、異種相互作用を扱うための注意機構に依存しており、これは幾何学的先行を捉えることができず、計算的にも集中的である。 本稿では,エゴ車両,道路エージェント,地図要素間の相互作用をモデル化するための統合手法として,インタラクションシーングラフ(ISG)を提案する。 ISGの表現により、駆動エージェントは、衝突の可能性のある道路エージェントや従うべき地図要素など、最も影響力のある要素から重要な情報を収集する。 大量の不要なインタラクションが省略されるため、より効率的なシーングラフベースのフレームワークは、必須のコネクションに集中することができ、パフォーマンスが向上する。 提案手法をnuScenesデータセット上で評価した。 強いベースラインと比較して,本手法は認識,予測,計画などのフルスタック駆動タスクにおいて有意に優れていた。 コードはhttps://github.com/zhangyp15/GraphADでリリースされる。

Modeling complicated interactions among the ego-vehicle, road agents, and map elements has been a crucial part for safety-critical autonomous driving. Previous works on end-to-end autonomous driving rely on the attention mechanism for handling heterogeneous interactions, which fails to capture the geometric priors and is also computationally intensive. In this paper, we propose the Interaction Scene Graph (ISG) as a unified method to model the interactions among the ego-vehicle, road agents, and map elements. With the representation of the ISG, the driving agents aggregate essential information from the most influential elements, including the road agents with potential collisions and the map elements to follow. Since a mass of unnecessary interactions are omitted, the more efficient scene-graph-based framework is able to focus on indispensable connections and leads to better performance. We evaluate the proposed method for end-to-end autonomous driving on the nuScenes dataset. Compared with strong baselines, our method significantly outperforms in the full-stack driving tasks, including perception, prediction, and planning. Code will be released at https://github.com/zhangyp15/GraphAD.
翻訳日:2024-04-10 00:16:23 公開日:2024-04-07
# NeuraLunaDTNet:遅延耐性ルナー通信のためのフィードフォワードニューラルネットワークベースのルーティングプロトコル

NeuraLunaDTNet: Feedforward Neural Network-Based Routing Protocol for Delay-Tolerant Lunar Communication Networks ( http://arxiv.org/abs/2403.20199v2 )

ライセンス: Link先を確認
Parth Patel, Milena Radenkovic, (参考訳) 宇宙通信は、重大な遅延、予測の難しい経路、通信障害などの課題を提起する。 遅延耐性ネットワークアーキテクチャは、そのようなシナリオを念頭に置いて特別に設計されており、いくつかの課題に対処するのに適しています。 従来のDTNルーティングプロトコルは、空間通信の本質的な複雑さのため、最適なパフォーマンスを提供できない。 研究者は、最近のAIの進歩を使ってルーティングの課題を軽減することを目指している[9]。 動的に変化する時空間グラフにおける接触計画の学習により,月面通信のためのPRoPHETルーティングプロトコルの効率を向上させる新しいプロトコルであるNeuraLunaDTNetを開発するために,フィードフォワードニューラルネットワークの利用を提案する。

Space Communication poses challenges such as severe delays, hard-to-predict routes and communication disruptions. The Delay Tolerant Network architecture, having been specifically designed keeping such scenarios in mind, is suitable to address some challenges. The traditional DTN routing protocols fall short of delivering optimal performance, due to the inherent complexities of space communication. Researchers have aimed at using recent advancements in AI to mitigate some routing challenges [9]. We propose utilising a feedforward neural network to develop a novel protocol NeuraLunaDTNet, which enhances the efficiency of the PRoPHET routing protocol for lunar communication, by learning contact plans in dynamically changing spatio-temporal graph.
翻訳日:2024-04-10 00:16:23 公開日:2024-04-07
# データサイエンスにおける予測的語彙課題に対する大規模言語モデルの可能性

Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science ( http://arxiv.org/abs/2403.20208v4 )

ライセンス: Link先を確認
Yazheng Yang, Yuqi Wang, Sankalok Sen, Lei Li, Qi Liu, (参考訳) データサイエンスの分野において、欠落した値の分類、回帰、計算の予測タスクは、表型データに関連する問題によく遭遇する。 この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。 自然言語を解釈する能力にもかかわらず、LLMは構造化された表データを扱うには不十分である。 この制限は、基礎的なトレーニング中に表データの複雑さに欠けることに起因する。 本研究の目的は、この拡張データセット上で、注釈付きテーブルの包括的コーパスをコンパイルし、Llama-2の大規模トレーニングを実行することにより、このギャップを軽減することである。 さらに、訓練されたモデルをゼロショット予測、少数ショット予測、文脈内学習シナリオに適用する実践的応用について検討する。 大規模な実験を通じて、我々の方法論は既存のベンチマークよりも大幅に改善されている。 これらの進歩は、データサイエンスにおけるテーブル関連問題を解決するためのLLMトレーニングの調整の有効性を強調し、表知性を高めるためにLLMを利用するための新しいベンチマークを確立する。

In the domain of data science, the predictive tasks of classification, regression, and imputation of missing values are commonly encountered challenges associated with tabular data. This research endeavors to apply Large Language Models (LLMs) towards addressing these predictive tasks. Despite their proficiency in comprehending natural language, LLMs fall short in dealing with structured tabular data. This limitation stems from their lacking exposure to the intricacies of tabular data during their foundational training. Our research aims to mitigate this gap by compiling a comprehensive corpus of tables annotated with instructions and executing large-scale training of Llama-2 on this enriched dataset. Furthermore, we investigate the practical application of applying the trained model to zero-shot prediction, few-shot prediction, and in-context learning scenarios. Through extensive experiments, our methodology has shown significant improvements over existing benchmarks. These advancements highlight the efficacy of tailoring LLM training to solve table-related problems in data science, thereby establishing a new benchmark in the utilization of LLMs for enhancing tabular intelligence.
翻訳日:2024-04-10 00:16:23 公開日:2024-04-07
# FABind+: 改良されたポケット予測とポース生成による分子ドッキングの強化

FABind+: Enhancing Molecular Docking through Improved Pocket Prediction and Pose Generation ( http://arxiv.org/abs/2403.20261v3 )

ライセンス: Link先を確認
Kaiyuan Gao, Qizhi Pei, Jinhua Zhu, Kun He, Lijun Wu, (参考訳) 分子ドッキングは薬物発見の重要な過程である。 従来のテクニックは、物理的な原則によって管理される広範囲なサンプリングとシミュレーションに依存しているが、これらの手法は、しばしば遅くてコストがかかる。 ディープラーニングベースのアプローチの出現は、正確性と効率の両面において、大きな可能性を秘めている。 スピードと精度を重視したモデルであるFABindの基本的な作業に基づいて,FABind+を改良し,前機種の性能を大幅に向上させる。 分子ドッキングにおいて,ポケット予測が重要なボトルネックであると認識し,ポケット予測を大幅に洗練し,ドッキングプロセスの合理化を図る手法を提案する。 さらに,ドッキングモジュールを改良し,ポーズ生成能力を向上する。 従来のサンプリング/生成手法とギャップを埋めるために,FABindの回帰フレームワークを微調整するだけで,信頼性モデルと組み合わせて,単純かつ効果的なサンプリング手法を導入する。 実験結果と解析結果から,FABind+は元々のFABindを著しく上回り,最先端の競争性能を達成し,洞察に富んだモデリング戦略を提供することが明らかとなった。 このことは、FABind+が分子ドッキングと薬物発見において大きな進歩を示していることを示している。 私たちのコードはhttps://github.com/QizhiPei/FABind.orgにある。

Molecular docking is a pivotal process in drug discovery. While traditional techniques rely on extensive sampling and simulation governed by physical principles, these methods are often slow and costly. The advent of deep learning-based approaches has shown significant promise, offering increases in both accuracy and efficiency. Building upon the foundational work of FABind, a model designed with a focus on speed and accuracy, we present FABind+, an enhanced iteration that largely boosts the performance of its predecessor. We identify pocket prediction as a critical bottleneck in molecular docking and propose a novel methodology that significantly refines pocket prediction, thereby streamlining the docking process. Furthermore, we introduce modifications to the docking module to enhance its pose generation capabilities. In an effort to bridge the gap with conventional sampling/generative methods, we incorporate a simple yet effective sampling technique coupled with a confidence model, requiring only minor adjustments to the regression framework of FABind. Experimental results and analysis reveal that FABind+ remarkably outperforms the original FABind, achieves competitive state-of-the-art performance, and delivers insightful modeling strategies. This demonstrates FABind+ represents a substantial step forward in molecular docking and drug discovery. Our code is in https://github.com/QizhiPei/FABind.
翻訳日:2024-04-10 00:06:38 公開日:2024-04-07
# 重度ラベルフリップ攻撃を用いた逆ラベルによるバックドアアプローチ

A Backdoor Approach with Inverted Labels Using Dirty Label-Flipping Attacks ( http://arxiv.org/abs/2404.00076v2 )

ライセンス: Link先を確認
Orson Mengara, (参考訳) オーディオベースの機械学習システムは、公開データやサードパーティのデータを使うことが多いが、それは不正確かもしれない。 これにより、そのようなデータに基づいてトレーニングされたディープニューラルネットワーク(DNN)モデルが、潜在的なデータ中毒攻撃に公開されている。 この種の攻撃では、攻撃者は有毒なデータを使ってDNNモデルを訓練でき、性能を低下させる可能性がある。 我々の調査に非常に関係のある別のタイプのデータ中毒攻撃は、攻撃者がデータのサブセットのためにラベルを操作するラベルフリップである。 これらの攻撃は、最小限の能力を持つ攻撃者であっても、システム性能を大幅に低下させる可能性があることが示されている。 本研究では,「ラベル・オン・ラベル」という汚いラベル技術を用いて,対象クラスに関連する選択データパターンのトリガ(クラップ)を入力し,ステルスなバックドアを実現する「DirtyFlipping」というバックドア攻撃を提案する。

Audio-based machine learning systems frequently use public or third-party data, which might be inaccurate. This exposes deep neural network (DNN) models trained on such data to potential data poisoning attacks. In this type of assault, attackers can train the DNN model using poisoned data, potentially degrading its performance. Another type of data poisoning attack that is extremely relevant to our investigation is label flipping, in which the attacker manipulates the labels for a subset of data. It has been demonstrated that these assaults may drastically reduce system performance, even for attackers with minimal abilities. In this study, we propose a backdoor attack named 'DirtyFlipping', which uses dirty label techniques, "label-on-label", to input triggers (clapping) in the selected data patterns associated with the target class, thereby enabling a stealthy backdoor.
翻訳日:2024-04-10 00:06:38 公開日:2024-04-07
# LAKE-RED:潜在背景知識検索拡散によるカモフラージュ画像の生成

LAKE-RED: Camouflaged Images Generation by Latent Background Knowledge Retrieval-Augmented Diffusion ( http://arxiv.org/abs/2404.00292v2 )

ライセンス: Link先を確認
Pancheng Zhao, Peng Xu, Pengda Qin, Deng-Ping Fan, Zhicheng Zhang, Guoli Jia, Bowen Zhou, Jufeng Yang, (参考訳) カモフラージュされた視覚知覚は、多くの実用的な応用において重要な視覚課題である。 高価な収集とラベル付けコストのため、このコミュニティはデータセットの種分類が少数の対象種に限られているという大きなボトルネックに直面している。 しかし、既存のカモフラージュ生成法では、手動でバックグラウンドを指定する必要があるため、カモフラージュされたサンプルの多様性を低コストで拡張できない。 本稿では,カモフラージュ画像生成のための潜在背景知識検索拡散(LAKE-RED)を提案する。 1) 背景入力を受信する必要のないカモフラージュ生成パラダイムを提案する。 2) LAKE-REDは, カモフラージュ生成のための解釈可能性を持つ最初の知識検索拡張手法であり, タスク固有の課題を軽減するために, 知識検索と推論の強化を明示的に分離する考え方を提案する。 さらに,本手法は特定の前景的対象や背景に限らず,より多様な領域に視知覚を拡大する可能性がある。 実験の結果,提案手法は既存の手法よりも優れ,よりリアルなカモフラージュ画像を生成することがわかった。

Camouflaged vision perception is an important vision task with numerous practical applications. Due to the expensive collection and labeling costs, this community struggles with a major bottleneck that the species category of its datasets is limited to a small number of object species. However, the existing camouflaged generation methods require specifying the background manually, thus failing to extend the camouflaged sample diversity in a low-cost manner. In this paper, we propose a Latent Background Knowledge Retrieval-Augmented Diffusion (LAKE-RED) for camouflaged image generation. To our knowledge, our contributions mainly include: (1) For the first time, we propose a camouflaged generation paradigm that does not need to receive any background inputs. (2) Our LAKE-RED is the first knowledge retrieval-augmented method with interpretability for camouflaged generation, in which we propose an idea that knowledge retrieval and reasoning enhancement are separated explicitly, to alleviate the task-specific challenges. Moreover, our method is not restricted to specific foreground targets or backgrounds, offering a potential for extending camouflaged vision perception to more diverse domains. (3) Experimental results demonstrate that our method outperforms the existing approaches, generating more realistic camouflage images.
翻訳日:2024-04-10 00:06:38 公開日:2024-04-07
# スラヴ語のための言語間共用エンティティコーパス

Cross-lingual Named Entity Corpus for Slavic Languages ( http://arxiv.org/abs/2404.00482v2 )

ライセンス: Link先を確認
Jakub Piskorski, Michał Marcińczuk, Roman Yangarber, (参考訳) 本稿では,ブルガリア語,チェコ語,ポーランド語,スロベニア語,ロシア語,ウクライナ語という,スラヴ語6言語の名前付きコーパスを手作業で提示する。 この作業は、スラヴ自然言語処理ワークショップの一部として2017-2023年に行われた一連の共有タスクの結果である。 コーパスは7つのトピックに関する5つの017文書で構成されている。 文書には5つの名前付きエンティティのクラスがアノテートされている。 各エンティティは、カテゴリ、補題、ユニークな言語間識別子によって記述される。 シングルトピックアウトとクロストピックという、2つのトレインツーーンデータセットの分割を提供します。 各分割に対して、トレーニング済みのマルチ言語モデルであるXLM-RoBERTa-largeを名前付きエンティティ参照認識と分類用、mT5-largeを名前付きエンティティの補間とリンク用、トランスフォーマーベースのニューラルネットワークアーキテクチャを用いてベンチマークを設定した。

This paper presents a corpus manually annotated with named entities for six Slavic languages - Bulgarian, Czech, Polish, Slovenian, Russian, and Ukrainian. This work is the result of a series of shared tasks, conducted in 2017-2023 as a part of the Workshops on Slavic Natural Language Processing. The corpus consists of 5 017 documents on seven topics. The documents are annotated with five classes of named entities. Each entity is described by a category, a lemma, and a unique cross-lingual identifier. We provide two train-tune dataset splits - single topic out and cross topics. For each split, we set benchmarks using a transformer-based neural network architecture with the pre-trained multilingual models - XLM-RoBERTa-large for named entity mention recognition and categorization, and mT5-large for named entity lemmatization and linking.
翻訳日:2024-04-10 00:06:38 公開日:2024-04-07
# CHAIN:リプシッツ連続性によるデータ効率GANの一般化の促進

CHAIN: Enhancing Generalization in Data-Efficient GANs via lipsCHitz continuity constrAIned Normalization ( http://arxiv.org/abs/2404.00521v3 )

ライセンス: Link先を確認
Yao Ni, Piotr Koniusz, (参考訳) GAN(Generative Adversarial Networks)は画像生成を著しく進歩させるが、その性能は豊富なトレーニングデータに大きく依存する。 限られたデータを持つシナリオでは、GANは差別者の過度な適合と不安定なトレーニングに苦労することが多い。 バッチ正規化(BN)は、一般化と訓練安定性の向上で知られているが、データ効率のよいGANの識別器としてはほとんど使われていない。 我々の研究は、BNの重大な欠陥、すなわち集中とスケーリングの段階における勾配爆発の傾向を特定することで、このギャップに対処する。 この問題に対処するために、従来の中心ステップをゼロ平均正規化に置き換え、スケーリングステップにリプシッツ連続性制約を統合するCHAIN(lipsCHitz continuity constrAIned Normalization)を提案する。 CHAINは、正常化および非正規化特徴を適応的に補間することにより、GANトレーニングをさらに強化し、判別器の過剰適合を効果的に回避する。 我々の理論解析は、CHAINが潜伏特徴と重みの勾配を減少させ、GANトレーニングの安定性と一般化を向上する効果を確固たるものにしている。 実証的な証拠が我々の理論を支持している。 CHAINは、CIFAR-10/100、ImageNet、5つのローショット、7つの高解像度のショットイメージデータセット上のデータ制限シナリオにおいて、最先端の結果を達成する。 コード:https://github.com/MaxwellYaoNi/CHAIN

Generative Adversarial Networks (GANs) significantly advanced image generation but their performance heavily depends on abundant training data. In scenarios with limited data, GANs often struggle with discriminator overfitting and unstable training. Batch Normalization (BN), despite being known for enhancing generalization and training stability, has rarely been used in the discriminator of Data-Efficient GANs. Our work addresses this gap by identifying a critical flaw in BN: the tendency for gradient explosion during the centering and scaling steps. To tackle this issue, we present CHAIN (lipsCHitz continuity constrAIned Normalization), which replaces the conventional centering step with zero-mean regularization and integrates a Lipschitz continuity constraint in the scaling step. CHAIN further enhances GAN training by adaptively interpolating the normalized and unnormalized features, effectively avoiding discriminator overfitting. Our theoretical analyses firmly establishes CHAIN's effectiveness in reducing gradients in latent features and weights, improving stability and generalization in GAN training. Empirical evidence supports our theory. CHAIN achieves state-of-the-art results in data-limited scenarios on CIFAR-10/100, ImageNet, five low-shot and seven high-resolution few-shot image datasets. Code: https://github.com/MaxwellYaoNi/CHAIN
翻訳日:2024-04-10 00:06:38 公開日:2024-04-07
# 知識NeRF:動的Ariculated Objectsの新しいビュー合成

Knowledge NeRF: Few-shot Novel View Synthesis for Dynamic Articulated Objects ( http://arxiv.org/abs/2404.00674v2 )

ライセンス: Link先を確認
Wenxiao Cai, Xinyue Lei, Xinyu He, Junming Leo Chen, Yangang Wang, (参考訳) 本稿では,動的シーンのための新しいビューを合成するための知識NeRFを提案する。 わずかな視点から動的3Dシーンを再構築し、任意の視点からレンダリングすることは、様々な分野のアプリケーションにとって難しい問題である。 従来の動的NeRF法はモノクロビデオから明瞭な物体の変形を学習する。 ただし、復元されたシーンの質は限られている。 動的シーンを動的に再構築するために,2つのフレームを同時に考慮して新しい枠組みを提案する。我々は,音節オブジェクトのNeRFモデルを事前学習する。 動的シーンにNeRFを適用し,事前学習した知識ベースと現在の状態の対応を学習するプロジェクションモジュールを提案する。 実験により, 動的3次元シーンを1つの状態で5つの入力画像で再構成する手法の有効性が示された。 Knowledge NeRFは動的調音オブジェクトにおける新しいビュー合成のための新しいパイプラインで有望なソリューションである。 データと実装はhttps://github.com/RussRobin/Knowledge_NeRF.comで公開されている。

We present Knowledge NeRF to synthesize novel views for dynamic scenes. Reconstructing dynamic 3D scenes from few sparse views and rendering them from arbitrary perspectives is a challenging problem with applications in various domains. Previous dynamic NeRF methods learn the deformation of articulated objects from monocular videos. However, qualities of their reconstructed scenes are limited. To clearly reconstruct dynamic scenes, we propose a new framework by considering two frames at a time.We pretrain a NeRF model for an articulated object.When articulated objects moves, Knowledge NeRF learns to generate novel views at the new state by incorporating past knowledge in the pretrained NeRF model with minimal observations in the present state. We propose a projection module to adapt NeRF for dynamic scenes, learning the correspondence between pretrained knowledge base and current states. Experimental results demonstrate the effectiveness of our method in reconstructing dynamic 3D scenes with 5 input images in one state. Knowledge NeRF is a new pipeline and promising solution for novel view synthesis in dynamic articulated objects. The data and implementation are publicly available at https://github.com/RussRobin/Knowledge_NeRF.
翻訳日:2024-04-10 00:06:38 公開日:2024-04-07
# 産業・社会のためのメタロボティクス:ビジョン,技術,機会

Metarobotics for Industry and Society: Vision, Technologies, and Opportunities ( http://arxiv.org/abs/2404.00797v2 )

ライセンス: Link先を確認
Eric Guiffo Kaigom, (参考訳) メタロボティクス(Metarobotics)は、次世代の無線通信、マルチセンス没入、および集団知能を組み合わせて、広範で反復的で非侵襲的なアクセスと遠隔ロボット化されたアプリケーションとの相互作用を提供することを目指している。 産業と社会はこれらの機能の恩恵を受けることが期待されている。 例えば、ロボットプログラマーはロボットの動きを計画し、テストするために世界中を旅することはない。 代わりに、ロボットとその環境をどこからでもパーソナライズできるようになり、家族や友人と過ごす時間が増える。 ロボティクスのコースに入学した学生は、リアルタイムで真に工業的な条件下で教えられる。 本稿では,社会,産業,産業におけるメタロボティクスの目的について述べる。 完成する可能性のある技術を特定し、調査し、メタロボティクスの重要なコンポーネントの相互作用を前進させるアーキテクチャを提供する。 学会5.0、産業4.0、産業5.0におけるロボット関連アプリケーションにおける自己決定、自己効力性、ワークライフフレキシビリティの可能性について概説する。

Metarobotics aims to combine next generation wireless communication, multi-sense immersion, and collective intelligence to provide a pervasive, itinerant, and non-invasive access and interaction with distant robotized applications. Industry and society are expected to benefit from these functionalities. For instance, robot programmers will no longer travel worldwide to plan and test robot motions, even collaboratively. Instead, they will have a personalized access to robots and their environments from anywhere, thus spending more time with family and friends. Students enrolled in robotics courses will be taught under authentic industrial conditions in real-time. This paper describes objectives of Metarobotics in society, industry, and in-between. It identifies and surveys technologies likely to enable their completion and provides an architecture to put forward the interplay of key components of Metarobotics. Potentials for self-determination, self-efficacy, and work-life-flexibility in robotics-related applications in Society 5.0, Industry 4.0, and Industry 5.0 are outlined.
翻訳日:2024-04-10 00:06:38 公開日:2024-04-07
# CityGaussian: ガウシアンによるリアルタイム高品質な大規模レンダリング

CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians ( http://arxiv.org/abs/2404.01133v2 )

ライセンス: Link先を確認
Yang Liu, He Guan, Chuanchen Luo, Lue Fan, Junran Peng, Zhaoxiang Zhang, (参考訳) リアルタイム3次元シーン再構築と新しいビュー合成の進歩は、3Dガウススプラッティング(3DGS)によって著しく促進されている。 しかし、大規模な3DGSを効果的に訓練し、様々なスケールでリアルタイムにレンダリングすることは依然として困難である。 本稿では,CityGaussian(CityGS)について紹介する。CityGaussian(CityGS)は,大規模な3DGSトレーニングとレンダリングを効率的に行うために,新たな分別/分別トレーニングアプローチとレベル・オブ・ディーテール(LoD)戦略を採用している。 具体的には、グローバルシーンの事前かつ適応的なトレーニングデータ選択により、効率的なトレーニングとシームレスな融合が可能になる。 融合ガウスプリミティブに基づいて圧縮により異なる詳細レベルを生成し、提案したブロックワイド詳細レベル選択と集約戦略により、様々なスケールにわたる高速レンダリングを実現する。 大規模シーンにおける大規模な実験結果から,我々の手法が最先端のレンダリング品質を実現し,大規模シーンを一貫したリアルタイムレンダリングを可能にすることを示した。 私たちのプロジェクトページはhttps://dekuliutesla.github.io/citygs/で公開されています。

The advancement of real-time 3D scene reconstruction and novel view synthesis has been significantly propelled by 3D Gaussian Splatting (3DGS). However, effectively training large-scale 3DGS and rendering it in real-time across various scales remains challenging. This paper introduces CityGaussian (CityGS), which employs a novel divide-and-conquer training approach and Level-of-Detail (LoD) strategy for efficient large-scale 3DGS training and rendering. Specifically, the global scene prior and adaptive training data selection enables efficient training and seamless fusion. Based on fused Gaussian primitives, we generate different detail levels through compression, and realize fast rendering across various scales through the proposed block-wise detail levels selection and aggregation strategy. Extensive experimental results on large-scale scenes demonstrate that our approach attains state-of-theart rendering quality, enabling consistent real-time rendering of largescale scenes across vastly different scales. Our project page is available at https://dekuliutesla.github.io/citygs/.
翻訳日:2024-04-09 23:56:54 公開日:2024-04-07
# Sketch3D:Sketch-to-3D生成のためのスタイル一貫性ガイダンス

Sketch3D: Style-Consistent Guidance for Sketch-to-3D Generation ( http://arxiv.org/abs/2404.01843v2 )

ライセンス: Link先を確認
Wangguandong Zheng, Haifeng Xia, Rui Chen, Ming Shao, Siyu Xia, Zhengming Ding, (参考訳) 近年,画像から3Dへのアプローチは自然なイメージを入力として大きな成果を上げている。 しかし、これらのリッチなカラー入力サンプルを、スケッチのみが利用可能な実用的なアプリケーションでアクセスすることは必ずしも不可能である。 既存のスケッチ・ツー・3D研究は、カラー情報や多視点コンテンツが不足しているため、幅広い応用の限界に悩まされている。 そこで本研究では,入力スケッチに整合した形状のリアルな3Dアセットを生成するための,新たな生成パラダイムであるSketch3Dを提案する。 具体的には、Sketch3Dは、まず、形状保存生成プロセスを通じて基準画像中の所定のスケッチをインスタンス化する。 次に、参照画像を利用して粗い3Dガウス先行を推定し、3Dガウスのレンダリングに基づいて多視点スタイルのガイダンス画像を生成する。 最後に、3つの戦略は、3Dガウスの最適化、すなわち分布伝達機構による構造最適化、直感的なMSE損失による色最適化、CLIPに基づく幾何類似性損失によるスケッチ類似性最適化である。 大規模な視覚比較と定量的分析は、入力との整合性を維持しながらリアルな3Dアセットを生成する際のSketch3Dの利点を示しています。

Recently, image-to-3D approaches have achieved significant results with a natural image as input. However, it is not always possible to access these enriched color input samples in practical applications, where only sketches are available. Existing sketch-to-3D researches suffer from limitations in broad applications due to the challenges of lacking color information and multi-view content. To overcome them, this paper proposes a novel generation paradigm Sketch3D to generate realistic 3D assets with shape aligned with the input sketch and color matching the textual description. Concretely, Sketch3D first instantiates the given sketch in the reference image through the shape-preserving generation process. Second, the reference image is leveraged to deduce a coarse 3D Gaussian prior, and multi-view style-consistent guidance images are generated based on the renderings of the 3D Gaussians. Finally, three strategies are designed to optimize 3D Gaussians, i.e., structural optimization via a distribution transfer mechanism, color optimization with a straightforward MSE loss and sketch similarity optimization with a CLIP-based geometric similarity loss. Extensive visual comparisons and quantitative analysis illustrate the advantage of our Sketch3D in generating realistic 3D assets while preserving consistency with the input.
翻訳日:2024-04-09 23:56:54 公開日:2024-04-07
# Bi-LORA:合成画像検出のための視覚言語アプローチ

Bi-LORA: A Vision-Language Approach for Synthetic Image Detection ( http://arxiv.org/abs/2404.01959v2 )

ライセンス: Link先を確認
Mamadou Keita, Wassim Hamidouche, Hessen Bougueffa Eutamene, Abdenour Hadid, Abdelmalik Taleb-Ahmed, (参考訳) GAN(Generative Adversarial Network)や拡散モデル(Difusion Model)といった深層画像合成技術の進歩は、高度に現実的な画像を生成する時代を後押ししている。 この技術進歩は大きな関心を集めているが、実際の画像と合成画像とを区別することの難しさを懸念する声も上がっている。 本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得た。 我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。 我々の方法論における重要な概念シフトは、画像キャプションタスクとしてバイナリ分類をリフレーミングすることで、最先端のVLM、特にブートストラップ言語画像事前学習(BLIP2)の特長を活用することである。 提案手法の有効性,特に未知の拡散ベース生成モデルから未知の拡散生成画像を検出し,ノイズに対する堅牢性を示し,GANに対する一般化能力を実証するために,厳密かつ包括的な実験を行った。 その結果, 合成画像検出における平均精度は93.41%であった。 この研究に関連するコードとモデルはhttps://github.com/Mamadou-Keita/VLM-DETECT.comで公開されている。

Advancements in deep image synthesis techniques, such as generative adversarial networks (GANs) and diffusion models (DMs), have ushered in an era of generating highly realistic images. While this technological progress has captured significant interest, it has also raised concerns about the potential difficulty in distinguishing real images from their synthetic counterparts. This paper takes inspiration from the potent convergence capabilities between vision and language, coupled with the zero-shot nature of vision-language models (VLMs). We introduce an innovative method called Bi-LORA that leverages VLMs, combined with low-rank adaptation (LORA) tuning techniques, to enhance the precision of synthetic image detection for unseen model-generated images. The pivotal conceptual shift in our methodology revolves around reframing binary classification as an image captioning task, leveraging the distinctive capabilities of cutting-edge VLM, notably bootstrapping language image pre-training (BLIP2). Rigorous and comprehensive experiments are conducted to validate the effectiveness of our proposed approach, particularly in detecting unseen diffusion-generated images from unknown diffusion-based generative models during training, showcasing robustness to noise, and demonstrating generalization capabilities to GANs. The obtained results showcase an impressive average accuracy of 93.41% in synthetic image detection on unseen generation models. The code and models associated with this research can be publicly accessed at https://github.com/Mamadou-Keita/VLM-DETECT.
翻訳日:2024-04-09 23:56:54 公開日:2024-04-07
# 鍛造政策の鉄筋強度測定技術

Techniques for Measuring the Inferential Strength of Forgetting Policies ( http://arxiv.org/abs/2404.02454v2 )

ライセンス: Link先を確認
Patrick Doherty, Andrzej Szalas, (参考訳) 知識表現を忘れる技術は、広く応用された強力で有用な知識工学ツールであることが示されている。 しかし、忘れることの異なるポリシー、または異なる忘れることのオペレータの使用が、元の理論の推論強度にどのように影響するかについての研究はほとんど行われていない。 本研究の目的は,モデルカウントと確率論からの直観に基づく推論強度の変化を測定するための損失関数を定義することである。 このような損失対策の特性を考察し,Problog を用いた損失対策の計算に実用的知識工学ツールを提案する。 本稿では,異なる忘れ方策の強みを研究・決定する作業方法論と,Problogを用いた理論的結果の適用方法を示す具体例を含む。 忘れることに重点を置いているが、結果はずっと一般的であり、他の分野にも広く適用されるべきである。

The technique of forgetting in knowledge representation has been shown to be a powerful and useful knowledge engineering tool with widespread application. Yet, very little research has been done on how different policies of forgetting, or use of different forgetting operators, affects the inferential strength of the original theory. The goal of this paper is to define loss functions for measuring changes in inferential strength based on intuitions from model counting and probability theory. Properties of such loss measures are studied and a pragmatic knowledge engineering tool is proposed for computing loss measures using Problog. The paper includes a working methodology for studying and determining the strength of different forgetting policies, in addition to concrete examples showing how to apply the theoretical results using Problog. Although the focus is on forgetting, the results are much more general and should have wider application to other areas.
翻訳日:2024-04-09 23:46:55 公開日:2024-04-07
# 大規模言語モデルの社会的ノルムの測定

Measuring Social Norms of Large Language Models ( http://arxiv.org/abs/2404.02491v2 )

ライセンス: Link先を確認
Ye Yuan, Kexin Tang, Jianhao Shen, Ming Zhang, Chenguang Wang, (参考訳) 本稿では,大規模言語モデルが社会規範を理解するかどうかを検証するための新たな課題を提案する。 既存のデータセットとは対照的に、私たちのデータセットは解決すべき社会的規範を根本的に理解する必要があります。 我々のデータセットは、402のスキルと12,383の質問からなり、意見や議論から文化や法律まで幅広い社会的規範をカバーしている。 K-12のカリキュラムに従ってデータセットを設計する。 これにより、大きな言語モデルの社会的理解を直接人間、具体的には小学生と直接比較することができる。 GPT3.5-Turbo や LLaMA2-Chat といった最近の大規模言語モデルでは,従来のベンチマークではほとんどランダムな精度が得られなかった。 次に,大規模言語モデルに基づくマルチエージェントフレームワークを提案する。 この方法は、人間に匹敵する大きな言語モデルをさらに改善する。 現実世界のアプリケーションにおける大規模言語モデルの採用が増加していることを考えると、我々の発見は特に重要であり、将来の改善に向けたユニークな方向性を示している。

We present a new challenge to examine whether large language models understand social norms. In contrast to existing datasets, our dataset requires a fundamental understanding of social norms to solve. Our dataset features the largest set of social norm skills, consisting of 402 skills and 12,383 questions covering a wide set of social norms ranging from opinions and arguments to culture and laws. We design our dataset according to the K-12 curriculum. This enables the direct comparison of the social understanding of large language models to humans, more specifically, elementary students. While prior work generates nearly random accuracy on our benchmark, recent large language models such as GPT3.5-Turbo and LLaMA2-Chat are able to improve the performance significantly, only slightly below human performance. We then propose a multi-agent framework based on large language models to improve the models' ability to understand social norms. This method further improves large language models to be on par with humans. Given the increasing adoption of large language models in real-world applications, our finding is particularly important and presents a unique direction for future improvements.
翻訳日:2024-04-09 23:46:55 公開日:2024-04-07
# GenEARL: マルチモーダルイベント引数ロールラベル作成のためのトレーニング不要な生成フレームワーク

GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling ( http://arxiv.org/abs/2404.04763v1 )

ライセンス: Link先を確認
Hritik Bansal, Po-Nien Kung, P. Jeffrey Brantingham, Kai-Wei Chang, Nanyun Peng, (参考訳) マルチモーダルイベント引数ロールラベル(EARL)は、画像内の各イベント参加者(オブジェクト)にロールを割り当てるタスクである。 画像全体、描写されたイベント、およびイベントに参加するさまざまなオブジェクト間のインタラクションを推論する必要がある。 既存のモデルは、イベントセマンティクスと構造を理解するために、高品質なイベントアノテートされたトレーニングデータに大きく依存しています。 本稿では,最新の生成モデルのパワーを生かした学習自由な生成フレームワークGenEARLを提案する。 具体的には、GenEARLは、凍結視覚言語モデル(VLM)と凍結大型言語モデル(LLM)の2つの生成プロンプトからなる。 まず、生成VLMは、イベント引数の役割の意味を学習し、画像に基づいてイベント中心のオブジェクト記述を生成する。 その後、 LLM は EARL の事前定義されたテンプレートで生成されたオブジェクト記述でトリガーされる(つまり、オブジェクトにイベント引数ロールを割り当てる)。 GenEARLは、M2E2データセットとSwiGデータセットのゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。 さらに、M2E2データセット上で、CLIP-Eventを22%精度でパフォーマンスします。 このフレームワークはまた、目に見えない領域へのフレキシブルな適応と一般化を可能にする。

Multimodal event argument role labeling (EARL), a task that assigns a role for each event participant (object) in an image is a complex challenge. It requires reasoning over the entire image, the depicted event, and the interactions between various objects participating in the event. Existing models heavily rely on high-quality event-annotated training data to understand the event semantics and structures, and they fail to generalize to new event types and domains. In this paper, we propose GenEARL, a training-free generative framework that harness the power of the modern generative models to understand event task descriptions given image contexts to perform the EARL task. Specifically, GenEARL comprises two stages of generative prompting with a frozen vision-language model (VLM) and a frozen large language model (LLM). First, a generative VLM learns the semantics of the event argument roles and generates event-centric object descriptions based on the image. Subsequently, a LLM is prompted with the generated object descriptions with a predefined template for EARL (i.e., assign an object with an event argument role). We show that GenEARL outperforms the contrastive pretraining (CLIP) baseline by 9.4% and 14.2% accuracy for zero-shot EARL on the M2E2 and SwiG datasets, respectively. In addition, we outperform CLIP-Event by 22% precision on M2E2 dataset. The framework also allows flexible adaptation and generalization to unseen domains.
翻訳日:2024-04-09 19:40:41 公開日:2024-04-07
# 光子多体分散-強結合光マター系における交換相関関数

Photon Many-body Dispersion: an Exchange-correlation Functional for Strongly Coupled Light-matter Systems ( http://arxiv.org/abs/2404.04765v1 )

ライセンス: Link先を確認
Cankut Tasci, Leonardo A. Cunha, Johannes Flick, (参考訳) 電子-光子交換相関関数を量子電気力学密度汎関数理論(QEDFT)に導入する。 このアプローチは光子MBD(英語版)(pMBD)と呼ばれる、弱い分子間相互作用のための多体分散(MBD)法にインスパイアされ、電子的および光磁気的自由度の両方を同じ足場に含めるように一般化されている。 pMBDは、単一光子効果を超える異方性電子-光子相互作用や空洞変調ファンデルワールス相互作用のような強い光-物質相互作用の文脈で生じる効果を正確に捉えている。 さらに、pMBDは計算効率が良く、光学キャビティに結合した大規模複雑系のシミュレーションを可能にすることを示す。

We introduce an electron-photon exchange-correlation functional for quantum electrodynamical density-functional theory (QEDFT). The approach, photon MBD (pMBD), is inspired by the many-body dispersion (MBD) method for weak intermolecular interactions, which is generalized to include both electronic and photonic (electromagnetic) degrees of freedom on the same footing. We demonstrate that pMBD accurately captures effects that arise in the context of strong light-matter interactions, such as anisotropic electron-photon interactions, beyond single-photon effects, and cavity modulated van der Waals interactions. Moreover, we show that pMBD is computationally efficient and allows simulations of large complex systems coupled to optical cavities.
翻訳日:2024-04-09 19:40:41 公開日:2024-04-07
# ボイス・プライバシの保護:無許可の音声録音から身を守るために、ほぼUltrasonicの干渉を嫌う

Safeguarding Voice Privacy: Harnessing Near-Ultrasonic Interference To Protect Against Unauthorized Audio Recording ( http://arxiv.org/abs/2404.04769v1 )

ライセンス: Link先を確認
Forrest McKee, David Noever, (参考訳) 音声アクティベートシステムの普及により、日常的な人間と機械の相互作用が修正される一方で、新たな脆弱性も導入されている。 本稿では,これらのシステムにおける音声認識(ASR)アルゴリズムの音場近傍からの干渉に対する感受性について検討する。 マイクロエレクトロメカニカル・マイクロホン(MEMS)の固有の特性を生かし、近接超音速(16kHz - 22kHz)の周波数特性を実証する以前の研究に基づいて、この干渉現象を用いた代替プライバシー執行手段を探索した。 現代の音声アクティベートデバイスで使われている最も一般的なマイクロフォンにおいて、音声の周波数に近い周波数を誤って可聴スペクトルに分解する致命的な脆弱性が露呈し、ASRプロセスが破壊される。 様々なASRシステムに対する準超音速雑音の影響を系統的に解析することにより、この脆弱性は異なるデバイス間で一貫性があり、放送距離や特定の音素構造など、様々な条件下で持続可能であることを示す。 本研究は,この脆弱性の悪用から発声システムを保護するために,堅牢な対策を開発する必要性を浮き彫りにした。 さらに,未承認の音声記録や盗聴を妨害することにより,プライバシー向上にこの現象の応用の可能性を探る。 本研究は、音声アクティベーションシステムを確保するための包括的アプローチの重要性を強調し、技術革新と責任ある開発プラクティスを組み合わせること、そして、ますます結びついた世界のユーザのプライバシとセキュリティを確保するためのポリシー決定を通知することである。

The widespread adoption of voice-activated systems has modified routine human-machine interaction but has also introduced new vulnerabilities. This paper investigates the susceptibility of automatic speech recognition (ASR) algorithms in these systems to interference from near-ultrasonic noise. Building upon prior research that demonstrated the ability of near-ultrasonic frequencies (16 kHz - 22 kHz) to exploit the inherent properties of microelectromechanical systems (MEMS) microphones, our study explores alternative privacy enforcement means using this interference phenomenon. We expose a critical vulnerability in the most common microphones used in modern voice-activated devices, which inadvertently demodulate near-ultrasonic frequencies into the audible spectrum, disrupting the ASR process. Through a systematic analysis of the impact of near-ultrasonic noise on various ASR systems, we demonstrate that this vulnerability is consistent across different devices and under varying conditions, such as broadcast distance and specific phoneme structures. Our findings highlight the need to develop robust countermeasures to protect voice-activated systems from malicious exploitation of this vulnerability. Furthermore, we explore the potential applications of this phenomenon in enhancing privacy by disrupting unauthorized audio recording or eavesdropping. This research underscores the importance of a comprehensive approach to securing voice-activated systems, combining technological innovation, responsible development practices, and informed policy decisions to ensure the privacy and security of users in an increasingly connected world.
翻訳日:2024-04-09 19:40:41 公開日:2024-04-07
# 文書レベルイベント調停抽出のための非コンテクスト化・文脈化質問の生成

Generating Uncontextualized and Contextualized Questions for Document-Level Event Argument Extraction ( http://arxiv.org/abs/2404.04770v1 )

ライセンス: Link先を確認
Md Nayem Uddin, Enfa Rose George, Eduardo Blanco, Steven Corman, (参考訳) 本稿では,文書レベルのイベント引数抽出のための複数の質問生成手法を提案する。 これらの戦略は人間の関与を必要とせず、意味のない質問や、イベントや関心の文書に基づく文脈化された質問をもたらす。 実験結果から、特に異なる文にイベントトリガーや議論が現れる場合、意味のない質問と文脈化された質問を組み合わせることは有益であることが示唆された。 提案手法はコーパス固有のコンポーネントを持たず,特にコーパス間の質問生成戦略を伝達する。 また、最良のモデルによる最も一般的なエラーを定性的に分析する。

This paper presents multiple question generation strategies for document-level event argument extraction. These strategies do not require human involvement and result in uncontextualized questions as well as contextualized questions grounded on the event and document of interest. Experimental results show that combining uncontextualized and contextualized questions is beneficial, especially when event triggers and arguments appear in different sentences. Our approach does not have corpus-specific components, in particular, the question generation strategies transfer across corpora. We also present a qualitative analysis of the most common errors made by our best model.
翻訳日:2024-04-09 19:40:41 公開日:2024-04-07
# マルチコントラストMRI超解像に対する拡散モデルの再検討

Rethinking Diffusion Model for Multi-Contrast MRI Super-Resolution ( http://arxiv.org/abs/2404.04785v1 )

ライセンス: Link先を確認
Guangyuan Li, Chen Rao, Juncheng Mo, Zhanjie Zhang, Wei Xing, Lei Zhao, (参考訳) 近年,磁気共鳴画像(MRI)の超解像 (SR) 再構成に拡散モデル (DM) が適用され,特に詳細な再構成では顕著な性能を示した。 しかし,現在の DM ベースの SR 再構成手法では,最終画像の再構成に大量の反復が必要であり,非効率で膨大な計算資源を消費している。 2) これらの手法により再構成された結果は、しばしば実際の高解像度画像と一致せず、再構成されたMR画像に顕著な歪みをもたらす。 上記の問題に対処するため,DiffMSR という名前のマルチコントラストMRI SR の効率的な拡散モデルを提案する。 具体的には、DMをコンパクトな低次元潜在空間に適用し、高周波詳細情報を用いた事前知識を生成する。 非常にコンパクトな潜在空間は、DMが正確な事前知識を得るためには、ほんの数回の単純な反復しか必要としないことを保証している。 さらに, DMが生成した事前知識を十分に活用し, 再構成したMR画像が歪んでいないことを保証しながら, 受信フィールドを拡張できる DM 用デコーダとして, PLWformer を設計する。 公開および臨床データセットに関する大規模な実験により、我々のDiffMSRは最先端の手法よりも優れています。

Recently, diffusion models (DM) have been applied in magnetic resonance imaging (MRI) super-resolution (SR) reconstruction, exhibiting impressive performance, especially with regard to detailed reconstruction. However, the current DM-based SR reconstruction methods still face the following issues: (1) They require a large number of iterations to reconstruct the final image, which is inefficient and consumes a significant amount of computational resources. (2) The results reconstructed by these methods are often misaligned with the real high-resolution images, leading to remarkable distortion in the reconstructed MR images. To address the aforementioned issues, we propose an efficient diffusion model for multi-contrast MRI SR, named as DiffMSR. Specifically, we apply DM in a highly compact low-dimensional latent space to generate prior knowledge with high-frequency detail information. The highly compact latent space ensures that DM requires only a few simple iterations to produce accurate prior knowledge. In addition, we design the Prior-Guide Large Window Transformer (PLWformer) as the decoder for DM, which can extend the receptive field while fully utilizing the prior knowledge generated by DM to ensure that the reconstructed MR image remains undistorted. Extensive experiments on public and clinical datasets demonstrate that our DiffMSR outperforms state-of-the-art methods.
翻訳日:2024-04-09 19:40:41 公開日:2024-04-07
# SqueezeAttention:レイヤワイド最適予算によるLLM推論におけるKVキャッシュの2次元管理

SqueezeAttention: 2D Management of KV-Cache in LLM Inference via Layer-wise Optimal Budget ( http://arxiv.org/abs/2404.04793v1 )

ライセンス: Link先を確認
Zihao Wang, Shaoduo Gan, (参考訳) 大規模言語モデル(LLM)のキーバリュー(KV)キャッシュの最適化は、推論コストの削減に不可欠であると考えられている。 既存のKV-cache圧縮アルゴリズムのほとんどは、トークンの異なる重要性を生かしてトークンのシーケンスをスパース化しようとした。 本研究では,注意層の重要性を同定することにより,KV-cacheを2次元から共同で最適化できることを見出した。 提案手法は,各層にKVキャッシュを圧縮するための3つの代表的なトークンスペーシフィケーションアルゴリズムを組み込むことで,各層にKVキャッシュの割り当てを正確に最適化するものである。 シーケンスとレイヤの双方の次元からKVキャッシュを最適化することで、SqueezeAttentionはメモリの約30%から70%の削減を実現し、幅広いLCMやベンチマークで最大2.2倍のスループット向上を実現している。 コードはhttps://github.com/hetailang/SqueezeAttentionで入手できる。

Optimizing the Key-Value (KV) cache of the Large Language Model (LLM) has been considered critical to saving the cost of inference. Most of the existing KV-cache compression algorithms attempted to sparsify the sequence of tokens by taking advantage of the different importance of tokens. In this work, we found that by identifying the importance of attention layers, we could optimize the KV-cache jointly from two dimensions. Based on our observations regarding layer-wise importance in inference, we propose SqueezeAttention to precisely optimize the allocation of KV-cache budget among layers on-the-fly and then incorporate three representative token sparsification algorithms to compress the KV-cache for each layer with its very own budget. By optimizing the KV-cache from both sequence's and layer's dimensions, SqueezeAttention achieves around 30% to 70% of the memory reductions and up to 2.2 times of throughput improvements in a wide range of LLMs and benchmarks. The code is available at https://github.com/hetailang/SqueezeAttention.
翻訳日:2024-04-09 19:40:41 公開日:2024-04-07
# Few-Shot Object Detection:研究の進歩と課題

Few-Shot Object Detection: Research Advances and Challenges ( http://arxiv.org/abs/2404.04799v1 )

ライセンス: Link先を確認
Zhimeng Xin, Shiming Chen, Tianxu Wu, Yuanjie Shao, Weiping Ding, Xinge You, (参考訳) コンピュータビジョンのサブフィールドとしての物体検出は、画像やビデオから特定の物体を正確に識別し、特定することを目的として、目覚ましい進歩を遂げた。 このような手法は、各オブジェクトカテゴリの大規模ラベル付きトレーニングサンプルに頼り、正確な検出を確実にするが、多くの実世界のシナリオにおいて、広範囲の注釈付きデータを取得することは、労働集約的で高価なプロセスである。 この課題に対処するため、研究者らは、少数の学習技術とオブジェクト検出技術を組み合わせて、限定的な注釈付きサンプルで新しいオブジェクトに迅速に適応する、少数ショットオブジェクト検出(FSOD)を探索した。 本稿では,近年のFSOD分野の進歩を概観し,既存の課題と解決策を概観する。 具体的には、コンピュータビジョンの分野を前進させる際の潜在的な価値を強調するため、FSODの背景と定義を紹介する。 そこで本研究では,新しいFSOD分類法を提案し,この事実に基づく優れたFSODアルゴリズムを調査し,FSOD問題のより深い理解と革新的なソリューションの開発を促進する包括的概要を報告する。 最後に、これらのアルゴリズムの利点と限界を考察し、データ不足シナリオにおけるオブジェクト検出の課題、潜在的研究方向、および開発動向を概説する。

Object detection as a subfield within computer vision has achieved remarkable progress, which aims to accurately identify and locate a specific object from images or videos. Such methods rely on large-scale labeled training samples for each object category to ensure accurate detection, but obtaining extensive annotated data is a labor-intensive and expensive process in many real-world scenarios. To tackle this challenge, researchers have explored few-shot object detection (FSOD) that combines few-shot learning and object detection techniques to rapidly adapt to novel objects with limited annotated samples. This paper presents a comprehensive survey to review the significant advancements in the field of FSOD in recent years and summarize the existing challenges and solutions. Specifically, we first introduce the background and definition of FSOD to emphasize potential value in advancing the field of computer vision. We then propose a novel FSOD taxonomy method and survey the plentifully remarkable FSOD algorithms based on this fact to report a comprehensive overview that facilitates a deeper understanding of the FSOD problem and the development of innovative solutions. Finally, we discuss the advantages and limitations of these algorithms to summarize the challenges, potential research direction, and development trend of object detection in the data scarcity scenario.
翻訳日:2024-04-09 19:40:41 公開日:2024-04-07
# ラベルノイズの協調的スパース回復

Coordinated Sparse Recovery of Label Noise ( http://arxiv.org/abs/2404.04800v1 )

ライセンス: Link先を確認
Yukun Yang, Naihao Wang, Haixin Yang, Ruirui Li, (参考訳) ラベルノイズは、必然的にモデルの一般化に影響を与える、現実世界のデータセットで一般的な問題である。 本研究は、ラベルノイズがインスタンス依存であるロバストな分類タスクに焦点を当てる。 このタスクにおいて、遷移行列を正確に推定することは困難であり、サンプル選択に基づく手法は、しばしば様々な度合いの確認バイアスを示す。 SOP(Sparse Over-parameterized Training)は、ラベルノイズの推定と回復に理論的に有効であり、ノイズラベル学習のための新しいソリューションを提供する。 しかし,本研究では,SOPの技術的欠陥を実証的に検証し,モデル予測とノイズ回復の協調性の欠如が一般化誤差の増大につながることを示した。 そこで本研究では,CSR(Coordinated Sparse Recovery)と呼ばれる手法を提案する。 CSRは、モデル予測とノイズ回復を調整するために、協調行列と信頼重みを導入し、エラーリークを低減する。 CSRに基づいて,共同サンプル選択戦略を設計し,CSR+と呼ばれる包括的で強力な学習フレームワークを構築した。 CSR+は、特により多くのクラスとインスタンス固有のノイズの高いデータセットに対して、確認バイアスを著しく低減する。 CSRとCSR+が同一レベルの手法と比較して優れた性能を発揮することを示す。

Label noise is a common issue in real-world datasets that inevitably impacts the generalization of models. This study focuses on robust classification tasks where the label noise is instance-dependent. Estimating the transition matrix accurately in this task is challenging, and methods based on sample selection often exhibit confirmation bias to varying degrees. Sparse over-parameterized training (SOP) has been theoretically effective in estimating and recovering label noise, offering a novel solution for noise-label learning. However, this study empirically observes and verifies a technical flaw of SOP: the lack of coordination between model predictions and noise recovery leads to increased generalization error. To address this, we propose a method called Coordinated Sparse Recovery (CSR). CSR introduces a collaboration matrix and confidence weights to coordinate model predictions and noise recovery, reducing error leakage. Based on CSR, this study designs a joint sample selection strategy and constructs a comprehensive and powerful learning framework called CSR+. CSR+ significantly reduces confirmation bias, especially for datasets with more classes and a high proportion of instance-specific noise. Experimental results on simulated and real-world noisy datasets demonstrate that both CSR and CSR+ achieve outstanding performance compared to methods at the same level.
翻訳日:2024-04-09 19:40:41 公開日:2024-04-07
# 非線型カップリングによるスピン格子緩和:フェルミの黄金律と拡張ディシパトン運動方程式の比較

Spin-lattice relaxation with non-linear couplings: Comparison between Fermi's golden rule and extended dissipaton equation of motion ( http://arxiv.org/abs/2404.04803v1 )

ライセンス: Link先を確認
Rui-Hao Bi, Wenjie Dou, (参考訳) フェルミの黄金律(FGR)は、磁気分子におけるスピン格子緩和のダイナミクスを理解するための実証的な枠組みを提供し、直接(1フォノン)やラマン(2フォノン)プロセスのような機構を含んでいる。 これらの原理は、T_1^{-1}$と表される実験的な縦緩和率を効果的にモデル化する。 しかし、結合強度の増加と非線形スピン格子相互作用のシナリオでは、FGRの適用性が低下する可能性がある。 本稿では、拡張ディシパトン運動方程式(DEOM)を用いて、正確なスピン格子緩和速度カーネルを数値的に評価する。 計算の結果, 2次スピン格子結合を考えると, 速度核は自由誘導減衰様の特徴を持ち, 減衰速度は相互作用強度に依存することがわかった。 FGRはスピン格子緩和の非マルコフ的性質を無視するので、FGRによって予測される温度依存性は正確な結果から著しく逸脱する。 本手法は, 非線形スピン格子相互作用を持つ他の系にも容易に適用でき, 分子量子ビットにおけるT_1$の温度依存性に関する貴重な知見を得ることができる。

Fermi's golden rule (FGR) offers an empirical framework for understanding the dynamics of spin-lattice relaxation in magnetic molecules, encompassing mechanisms like direct (one-phonon) and Raman (two-phonon) processes. These principles effectively model experimental longitudinal relaxation rates, denoted as $T_1^{-1}$. However, under scenarios of increased coupling strength and nonlinear spin-lattice interactions, FGR's applicability may diminish. This paper numerically evaluates the exact spin-lattice relaxation rate kernels, employing the extended dissipaton equation of motion (DEOM) formalism. Our calculations reveal that when quadratic spin-lattice coupling is considered, the rate kernels exhibit a free induction decay-like feature, and the damping rates depend on the interaction strength. We observe that the temperature dependence predicted by FGR significantly deviates from the exact results since FGR ignores the non-Markovian nature of spin-lattice relaxation. Our methods can be readily applied to other systems with nonlinear spin-lattice interactions and provide valuable insights into the temperature dependence of $T_1$ in molecular qubits.
翻訳日:2024-04-09 19:40:41 公開日:2024-04-07
# Light the Night: 自律運転における低照度向上のためのマルチコンディション拡散フレームワーク

Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving ( http://arxiv.org/abs/2404.04804v1 )

ライセンス: Link先を確認
Jinlong Li, Baolu Li, Zhengzhong Tu, Xinyu Liu, Qing Guo, Felix Juefei-Xu, Runsheng Xu, Hongkai Yu, (参考訳) 自律運転のための視覚中心認識システムは、特にLiDARベースのシステムと比較して、コスト効率とスケーラビリティのために近年注目されている。 しかしながら、これらのシステムは低照度条件に苦しむことが多く、性能と安全性を損なう可能性がある。 そこで本稿では,自律運転アプリケーションにおける低照度画像品質の向上を目的とした,ドメインに適したフレームワークであるLightDiffを紹介する。 具体的には,多条件制御拡散モデルを用いる。 LightDiffは、人間が編集したペアデータなしで動作し、代わりに動的なデータ劣化プロセスを活用する。 奥行きマップ、RGB画像、テキストキャプションなど、様々なモードから入力重みを適応的に制御し、コンテキスト整合性を維持しながら暗黒シーンを効果的に照らし出す、新しいマルチコンディションアダプタが組み込まれている。 さらに、強調画像と検出モデルの知識を整合させるため、LightDiffでは、強化学習を通じて拡散訓練プロセスの指導に、知覚特異的スコアを報奨として採用している。 nuScenesデータセットの大規模な実験により、LightDiffは夜間の条件下での最先端の3D検出器の性能を大幅に向上し、高い視覚的品質のスコアを達成し、自動運転の保護の可能性を強調している。

Vision-centric perception systems for autonomous driving have gained considerable attention recently due to their cost-effectiveness and scalability, especially compared to LiDAR-based systems. However, these systems often struggle in low-light conditions, potentially compromising their performance and safety. To address this, our paper introduces LightDiff, a domain-tailored framework designed to enhance the low-light image quality for autonomous driving applications. Specifically, we employ a multi-condition controlled diffusion model. LightDiff works without any human-collected paired data, leveraging a dynamic data degradation process instead. It incorporates a novel multi-condition adapter that adaptively controls the input weights from different modalities, including depth maps, RGB images, and text captions, to effectively illuminate dark scenes while maintaining context consistency. Furthermore, to align the enhanced images with the detection model's knowledge, LightDiff employs perception-specific scores as rewards to guide the diffusion training process through reinforcement learning. Extensive experiments on the nuScenes datasets demonstrate that LightDiff can significantly improve the performance of several state-of-the-art 3D detectors in night-time conditions while achieving high visual quality scores, highlighting its potential to safeguard autonomous driving.
翻訳日:2024-04-09 19:40:41 公開日:2024-04-07
# カオスの兆候としてのレニイエントロピーの対数特異点

Logarithmic singularities of Renyi entropy as a sign of chaos? ( http://arxiv.org/abs/2404.04805v1 )

ライセンス: Link先を確認
Norihiro Iizuka, Mitsuhiro Nishida, (参考訳) 我々は、複製指数$n$に対する局所演算子励起状態のRenyiエントロピーの対数特異点が量子カオスの兆候であることを示す。 具体例として、様々な二次元共形場理論におけるレニイエントロピーの対数特異点を解析する。 ホログラフィック CFT におけるレニイエントロピーの対数特異点は常に存在するが、自由かつ有理な CFT におけるそのような特異点は存在しない。 これらのレニイエントロピーの特異点は、後期のレニイエントロピーの対数的時間的成長にも関係している。

We propose that the logarithmic singularities of the Renyi entropy of local-operator-excited states for replica index $n$ can be a sign of quantum chaos. As concrete examples, we analyze the logarithmic singularities of the Renyi entropy in various two-dimensional conformal field theories. We show that there are always logarithmic singularities of the Renyi entropy in holographic CFTs, but no such singularities in free and rational CFTs. These singularities of the Renyi entropy are also related to the logarithmic time growth of the Renyi entropy at late times.
翻訳日:2024-04-09 19:40:41 公開日:2024-04-07
# D2SL:Foggy Domain-Adaptive Segmentationのためのデファジグとセマンティック学習

D2SL: Decouple Defogging and Semantic Learning for Foggy Domain-Adaptive Segmentation ( http://arxiv.org/abs/2404.04807v1 )

ライセンス: Link先を確認
Xuan Sun, Zhanfu An, Yuyu Liu, (参考訳) 霧の気象シナリオにおけるドメイン適応的セマンティックセマンティックセマンティックセマンティフィケーションについて検討し、未ラベルの霧のデータの利用を高め、霧の環境への適応性を向上させることを目的とした。 現在の手法は、鮮明なイメージを参照として頼りにし、霧のイメージのデファグングとセグメンテーションを共同で学習している。 1) セグメンテーションとデファジグ特徴表現の結合はセマンティック表現能力の低下をもたらし, (2) ラベルのないフォグギーデータにおいて実際のフォグ先行の活用に失敗し, モデル一般化能力が不足する,という2つの大きな欠点がある。 これらの課題に対処するため,D2SLと呼ばれる新しい学習フレームワークを提案する。 本稿では,デファッギングタスクとセグメンテーションタスクの接続を確立するためのドメイン一貫性転送戦略を提案する。 さらに,実際の霧画像から霧の先行を十分に活用することにより,消火効果を向上させるために,実際の霧の移動戦略を設計する。 提案手法は, 退行学習過程におけるセグメンテーションに必要な意味表現を強化し, 実際の霧データを活用することにより, 霧の分散の表現能力を最大化する。 提案手法の有効性を総合実験により検証した。

We investigated domain adaptive semantic segmentation in foggy weather scenarios, which aims to enhance the utilization of unlabeled foggy data and improve the model's adaptability to foggy conditions. Current methods rely on clear images as references, jointly learning defogging and segmentation for foggy images. Despite making some progress, there are still two main drawbacks: (1) the coupling of segmentation and defogging feature representations, resulting in a decrease in semantic representation capability, and (2) the failure to leverage real fog priors in unlabeled foggy data, leading to insufficient model generalization ability. To address these issues, we propose a novel training framework, Decouple Defogging and Semantic learning, called D2SL, aiming to alleviate the adverse impact of defogging tasks on the final segmentation task. In this framework, we introduce a domain-consistent transfer strategy to establish a connection between defogging and segmentation tasks. Furthermore, we design a real fog transfer strategy to improve defogging effects by fully leveraging the fog priors from real foggy images. Our approach enhances the semantic representations required for segmentation during the defogging learning process and maximizes the representation capability of fog invariance by effectively utilizing real fog data. Comprehensive experiments validate the effectiveness of the proposed method.
翻訳日:2024-04-09 19:30:39 公開日:2024-04-07
# MemFlow: メモリによる光フロー推定と予測

MemFlow: Optical Flow Estimation and Prediction with Memory ( http://arxiv.org/abs/2404.04808v1 )

ライセンス: Link先を確認
Qiaole Dong, Yanwei Fu, (参考訳) 光の流れは視覚コミュニティにとって重要な古典的なタスクである。 古典光学フロー推定では2つのフレームを入力として用いており、近年の手法では複数のフレームを長距離情報を明示的にモデル化する手法も検討されている。 前者はビデオシーケンスに沿った時間的コヒーレンスを完全に活用する能力を制限するが、後者は計算オーバーヘッドが重いため、通常はリアルタイムフロー推定では不可能である。 いくつかのマルチフレームベースのアプローチは、現在の見積のために見つからない将来のフレームを必要とし、安全クリティカルなシナリオにおけるリアルタイム適用性を損なう。 そこで本研究では,メモリを用いた光フロー推定と予測をリアルタイムに行うMemFlowを提案する。 本手法では,メモリの読み出しと更新を行うモジュールをリアルタイムに収集する。 さらに,様々なビデオ解像度に対応するために,解像度適応型再スケーリングを統合した。 また, 過去の観測結果に基づいて, 将来的な光流予測にもシームレスにアプローチが適用される。 提案手法は,効率的な歴史的動きの集約を利用して,Sintel と KITTI-15 のデータセット上で,より少ないパラメータと高速な推論速度で VideoFlow を高速化する。 提出時点では、MemFlowは1080pのSpringデータセットのパフォーマンスもリードしている。 コードとモデルについては、https://dqiaole.github.io/MemFlow/.comで公開されます。

Optical flow is a classical task that is important to the vision community. Classical optical flow estimation uses two frames as input, whilst some recent methods consider multiple frames to explicitly model long-range information. The former ones limit their ability to fully leverage temporal coherence along the video sequence; and the latter ones incur heavy computational overhead, typically not possible for real-time flow estimation. Some multi-frame-based approaches even necessitate unseen future frames for current estimation, compromising real-time applicability in safety-critical scenarios. To this end, we present MemFlow, a real-time method for optical flow estimation and prediction with memory. Our method enables memory read-out and update modules for aggregating historical motion information in real-time. Furthermore, we integrate resolution-adaptive re-scaling to accommodate diverse video resolutions. Besides, our approach seamlessly extends to the future prediction of optical flow based on past observations. Leveraging effective historical motion aggregation, our method outperforms VideoFlow with fewer parameters and faster inference speed on Sintel and KITTI-15 datasets in terms of generalization performance. At the time of submission, MemFlow also leads in performance on the 1080p Spring dataset. Codes and models will be available at: https://dqiaole.github.io/MemFlow/.
翻訳日:2024-04-09 19:30:39 公開日:2024-04-07
# 検索型LLMプロンプトによる低リソース機械翻訳:マンバイ語の研究

Low-Resource Machine Translation through Retrieval-Augmented LLM Prompting: A Study on the Mambai Language ( http://arxiv.org/abs/2404.04809v1 )

ライセンス: Link先を確認
Raphaël Merx, Aso Mahmudi, Katrina Langford, Leo Alberto de Araujo, Ekaterina Vylomova, (参考訳) 本研究では,Timor-Lesteで話される低音源のオーストロネシア語話者約20万人の母語話者を対象に,英語をMambaiに翻訳する大規模言語モデル(LLM)について検討した。 マンバイ語マニュアルと母語話者によって翻訳された追加文から派生した新しいコーパスを活用し、この低リソース文脈における機械翻訳(MT)に向け、数発のLLMプロンプトの有効性を検討する。 提案手法は,オープンソースのLLM (LlaMa 2 70b, Mixtral 8x7B, GPT-4) を用いて,翻訳精度の向上を目的として,並列文と辞書エントリの戦略的選択を行う。 TF-IDFとセマンティック埋め込みによって検索された文のインプロンプトに辞書のエントリを含めることで翻訳品質が大幅に向上することがわかった。 しかし,本研究では,言語マニュアルの資料ではBLEUスコアが最大21.2に達し,ネイティブ話者が提供したテストセットでは最大4.4であった。 これらの結果は,低リソース言語におけるMTを評価する上で,多様かつ代表的コーパスの重要性を浮き彫りにしている。 本研究は,低リソースMTを推進し,Mambai言語の初期コーパスを利用可能にすることを目的としている。

This study explores the use of large language models (LLMs) for translating English into Mambai, a low-resource Austronesian language spoken in Timor-Leste, with approximately 200,000 native speakers. Leveraging a novel corpus derived from a Mambai language manual and additional sentences translated by a native speaker, we examine the efficacy of few-shot LLM prompting for machine translation (MT) in this low-resource context. Our methodology involves the strategic selection of parallel sentences and dictionary entries for prompting, aiming to enhance translation accuracy, using open-source and proprietary LLMs (LlaMa 2 70b, Mixtral 8x7B, GPT-4). We find that including dictionary entries in prompts and a mix of sentences retrieved through TF-IDF and semantic embeddings significantly improves translation quality. However, our findings reveal stark disparities in translation performance across test sets, with BLEU scores reaching as high as 21.2 on materials from the language manual, in contrast to a maximum of 4.4 on a test set provided by a native speaker. These results underscore the importance of diverse and representative corpora in assessing MT for low-resource languages. Our research provides insights into few-shot LLM prompting for low-resource MT, and makes available an initial corpus for the Mambai language.
翻訳日:2024-04-09 19:30:39 公開日:2024-04-07
# AlphaCrystal-II:ディープラーニングを用いた距離行列に基づく結晶構造予測

AlphaCrystal-II: Distance matrix based crystal structure prediction using deep learning ( http://arxiv.org/abs/2404.04810v1 )

ライセンス: Link先を確認
Yuqi Song, Rongzhi Dong, Lai Wei, Qin Li, Jianjun Hu, (参考訳) 安定結晶構造の計算的予測は、新しい機能性材料の大規模発見に大きな影響を及ぼす。 しかしながら、材料の組成や公式からのみ結晶構造を予測することは、従来のab initio Crystal Structure Prediction (CSP)法が時間を要するグローバルサーチと第一原理自由エネルギー計算に依存しているため、有望だが難しい課題である。 近年のタンパク質構造予測における深層学習手法の成功に触発されて,既存の結晶構造に見られる原子間相互作用パターンの豊富な知識に基づく新しい解AlphaCrystal-IIを提案する。 AlphaCrystal-IIはターゲット結晶材料の原子距離行列を予測し、この行列を用いて結晶構造を再構築する。 既知の結晶構造の原子間関係の富を生かして, 包括的な実験による構造予測において, 顕著な有効性と信頼性を示す。 この研究は、データ駆動方式が、調整された特性を持つ新しい素材の発見と設計を加速する可能性を強調している。

Computational prediction of stable crystal structures has a profound impact on the large-scale discovery of novel functional materials. However, predicting the crystal structure solely from a material's composition or formula is a promising yet challenging task, as traditional ab initio crystal structure prediction (CSP) methods rely on time-consuming global searches and first-principles free energy calculations. Inspired by the recent success of deep learning approaches in protein structure prediction, which utilize pairwise amino acid interactions to describe 3D structures, we present AlphaCrystal-II, a novel knowledge-based solution that exploits the abundant inter-atomic interaction patterns found in existing known crystal structures. AlphaCrystal-II predicts the atomic distance matrix of a target crystal material and employs this matrix to reconstruct its 3D crystal structure. By leveraging the wealth of inter-atomic relationships of known crystal structures, our approach demonstrates remarkable effectiveness and reliability in structure prediction through comprehensive experiments. This work highlights the potential of data-driven methods in accelerating the discovery and design of new materials with tailored properties.
翻訳日:2024-04-09 19:30:39 公開日:2024-04-07
# 推論時ルール消去器: 展開モデルにおけるバイアス軽減のためのバイアスルールの蒸留と除去

Inference-Time Rule Eraser: Distilling and Removing Bias Rules to Mitigate Bias in Deployed Models ( http://arxiv.org/abs/2404.04814v1 )

ライセンス: Link先を確認
Yi Zhang, Jitao Sang, (参考訳) 公正性は、人工知能システム、特に雇用や正義のような高度な応用に配備された人々にとって重要である。 機械学習の公正性に対する既存の取り組みは、公正性基準を満たすために、ニューラルネットワークの重みを再訓練または微調整する必要がある。 しかし、モデルウェイトへのアクセスや変更ができないため、通常のモデルユーザにとって、これは現実的には実現不可能であることが多い。 本稿では,モデルウェイトにアクセスできない場合を考慮し,バイアス付きルール除去の観点から公平性問題に対処する,よりフレキシブルなフェアネスパラダイムである推論時ルール消去(Inference-Time Rule Eraser)を提案する。 まず、ベイズ分析によりモデル出力を変更してバイアスルールを消去し、不公平なルール(すなわち、バイアス付き特徴に対するモデルの応答)に関連する対数値をモデルのロジット出力から抽出することで推論時ルール消去器を推定した。 さらに,(1) バイアス付きルールを追加のパッチモデルに抽出するために,(1) アクセシブルウェイトを持つモデル上で限られたクエリを実行し,(2) 推定時間内に既にパッチ付きモデルに蒸留されているバイアス付きルールを,ルールエフェザーで概説した除去戦略で導かれる元のモデルの出力から除外する。 評価実験により, 公正性の懸念に対処する上で, 提案したルール消去器の有効性と優れた性能が示された。

Fairness is critical for artificial intelligence systems, especially for those deployed in high-stakes applications such as hiring and justice. Existing efforts toward fairness in machine learning fairness require retraining or fine-tuning the neural network weights to meet the fairness criteria. However, this is often not feasible in practice for regular model users due to the inability to access and modify model weights. In this paper, we propose a more flexible fairness paradigm, Inference-Time Rule Eraser, or simply Eraser, which considers the case where model weights can not be accessed and tackles fairness issues from the perspective of biased rules removal at inference-time. We first verified the feasibility of modifying the model output to wipe the biased rule through Bayesian analysis, and deduced Inference-Time Rule Eraser via subtracting the logarithmic value associated with unfair rules (i.e., the model's response to biased features) from the model's logits output as a means of removing biased rules. Moreover, we present a specific implementation of Rule Eraser that involves two stages: (1) limited queries are performed on the model with inaccessible weights to distill its biased rules into an additional patched model, and (2) during inference time, the biased rules already distilled into the patched model are excluded from the output of the original model, guided by the removal strategy outlined in Rule Eraser. Exhaustive experimental evaluation demonstrates the effectiveness and superior performance of the proposed Rule Eraser in addressing fairness concerns.
翻訳日:2024-04-09 19:30:39 公開日:2024-04-07
# Allo: 構成可能なアクセラレータ設計のためのプログラミングモデル

Allo: A Programming Model for Composable Accelerator Design ( http://arxiv.org/abs/2404.04815v1 )

ライセンス: Link先を確認
Hongzheng Chen, Niansong Zhang, Shaojie Xiang, Zhichen Zeng, Mengjia Dai, Zhiru Zhang, (参考訳) 特殊目的ハードウェアアクセラレータは、特にテクノロジスケーリングのメリットが減少を続ける中で、新興アプリケーションのパフォーマンス改善を維持するために、ますます重要になっている。 しかし、デザイナは現在、複雑な高性能加速器アーキテクチャを生産的に構築する効果的なツールや方法論を欠いている。 既存のHLS(High-level synthesis)ツールは、結果の良好な品質を達成するために、侵入的なソースレベルの変更を必要とすることが多い。 HLSの強化や置き換えを目的としたいくつかの新しいアクセラレータ設計言語 (ADL) が導入されたが、その利点は比較的単純なアプリケーションにおいて1つのカーネルでより明らかである。 既存のADLは、たとえ設計階層が平坦であったとしても、複数のカーネルを持つ現実的な階層設計では効果が低い。 本稿では,効率的な空間加速器設計のための構成可能なプログラミングモデルであるAlloを紹介する。 Alloは、アルゴリズム仕様から計算、メモリ、通信、データタイプを含むハードウェアのカスタマイズを分離し、それらをカスタマイズプリミティブのセットとしてカプセル化する。 Alloは、ボトムアップでタイプセーフな方法で異なる関数からのカスタマイズを組み合わせることで、入力プログラムの階層構造を保存する。 このアプローチは関数境界にまたがる全体最適化を促進する。 我々は、一般的に使われているHLSベンチマークと、いくつかの現実的なディープラーニングモデルに関する包括的な実験を行う。 評価の結果,AlloはPolyBenchのすべてのテストケースにおいて,最先端のHLSツールやADLよりも優れていることがわかった。 GPT2モデルでは、Alloの生成したアクセラレータの推論レイテンシはNVIDIA A100 GPUの5.4倍のエネルギー効率で1.7倍速くなる。

Special-purpose hardware accelerators are increasingly pivotal for sustaining performance improvements in emerging applications, especially as the benefits of technology scaling continue to diminish. However, designers currently lack effective tools and methodologies to construct complex, high-performance accelerator architectures in a productive manner. Existing high-level synthesis (HLS) tools often require intrusive source-level changes to attain satisfactory quality of results. Despite the introduction of several new accelerator design languages (ADLs) aiming to enhance or replace HLS, their advantages are more evident in relatively simple applications with a single kernel. Existing ADLs prove less effective for realistic hierarchical designs with multiple kernels, even if the design hierarchy is flattened. In this paper, we introduce Allo, a composable programming model for efficient spatial accelerator design. Allo decouples hardware customizations, including compute, memory, communication, and data type from algorithm specification, and encapsulates them as a set of customization primitives. Allo preserves the hierarchical structure of an input program by combining customizations from different functions in a bottom-up, type-safe manner. This approach facilitates holistic optimizations that span across function boundaries. We conduct comprehensive experiments on commonly-used HLS benchmarks and several realistic deep learning models. Our evaluation shows that Allo can outperform state-of-the-art HLS tools and ADLs on all test cases in the PolyBench. For the GPT2 model, the inference latency of the Allo generated accelerator is 1.7x faster than the NVIDIA A100 GPU with 5.4x higher energy efficiency, demonstrating the capability of Allo to handle large-scale designs.
翻訳日:2024-04-09 19:30:39 公開日:2024-04-07
# FRACTAL: Aggregate Text Labels によるファイングラインド・スコーリング

FRACTAL: Fine-Grained Scoring from Aggregate Text Labels ( http://arxiv.org/abs/2404.04817v1 )

ライセンス: Link先を確認
Yukti Makhija, Priyanka Agrawal, Rishi Saket, Aravindan Raghuveer, (参考訳) 大規模言語モデル(LLM)は、書き込み、ファクト検索、クエリ、推論といった複雑な生成タスクをパワーアップするように調整されている。 伝統的に、LLM性能の評価と調整のための人間やモデルフィードバックがレスポンスレベルで提供されており、より高速でコスト効率の高い評価を可能にしている。 しかし、最近の研究(Amplayo et al [2022], Wu et al [2023])は、文レベルのラベルがLLM最適化に対してより正確で解釈可能なフィードバックを提供することを示している。 本研究では,応答レベルラベルを文レベル (pseudo-) ラベルに分解する手法を提案する。 提案手法は,複数事例学習(MIL)とラベル比例(LLP)技術と先行情報(文書文のコサイン類似性など)を併用して,文レベルスコアリングのための特化モデルを訓練する。 また、モデル予測を用いて文レベルで列車セットを擬似ラベル付けしてモデルトレーニングを行い、さらなる性能向上を図る。 6つのデータセットと4つのタスク – 検索,質問応答,要約,数理推論 – にわたって,我々の手法を広範囲に評価する。 その結果,多くのタスクにおいて,複数のベースラインに比較して性能が向上した。 本研究は, 文レベル評価技術に対する応答レベルフィードバックを開発し, 文レベル事前情報を活用するとともに, 複数タスクに対する総合的な評価と, 微粒な人間のアノテートラベルを訓練したモデルに匹敵する性能を示すエンドツーエンドの微調整評価を行う。

Large language models (LLMs) are being increasingly tuned to power complex generation tasks such as writing, fact-seeking, querying and reasoning. Traditionally, human or model feedback for evaluating and further tuning LLM performance has been provided at the response level, enabling faster and more cost-effective assessments. However, recent works (Amplayo et al. [2022], Wu et al. [2023]) indicate that sentence-level labels may provide more accurate and interpretable feedback for LLM optimization. In this work, we introduce methods to disaggregate response-level labels into sentence-level (pseudo-)labels. Our approach leverages multiple instance learning (MIL) and learning from label proportions (LLP) techniques in conjunction with prior information (e.g., document-sentence cosine similarity) to train a specialized model for sentence-level scoring. We also employ techniques which use model predictions to pseudo-label the train-set at the sentence-level for model training to further improve performance. We conduct extensive evaluations of our methods across six datasets and four tasks: retrieval, question answering, summarization, and math reasoning. Our results demonstrate improved performance compared to multiple baselines across most of these tasks. Our work is the first to develop response-level feedback to sentence-level scoring techniques, leveraging sentence-level prior information, along with comprehensive evaluations on multiple tasks as well as end-to-end finetuning evaluation showing performance comparable to a model trained on fine-grained human annotated labels.
翻訳日:2024-04-09 19:30:39 公開日:2024-04-07
# DWE+:マルチモーダルエンティティリンクのためのデュアルウェイマッチング強化フレームワーク

DWE+: Dual-Way Matching Enhanced Framework for Multimodal Entity Linking ( http://arxiv.org/abs/2404.04818v1 )

ライセンス: Link先を確認
Shezheng Song, Shasha Li, Shan Zhao, Xiaopeng Li, Chengyu Wang, Jie Yu, Jun Ma, Tianwei Yan, Bin Ji, Xiaoguang Mao, (参考訳) マルチモーダルエンティティリンク(MEL)は、多モーダル情報(通常、テキストおよび視覚情報)を利用して、知識ベースにおける曖昧なエンティティへの曖昧な言及をリンクすることを目的としている。 1)イメージ全体を入力として扱うことは、冗長な情報を含む可能性がある。 2)画像の属性などのエンティティ関連情報の不十分な利用。 (3)知識基盤の実体とその表現のセマンティックな矛盾。 この目的のために,マルチモーダルなエンティティリンクのためのDWE+を提案する。 DWE+はより微細なセマンティクスをキャプチャし、エンティティとのセマンティクスの一貫性を動的に維持できる。 これは3つの側面によって達成される。 a) 画像を複数の局所オブジェクトに分割することで, きめ細かい画像特徴を抽出する手法を提案する。 次に、階層的コントラスト学習を用いて、粗粒度情報(テキストと画像)と細粒度情報(顔と視覚オブジェクト)のセマンティクスを更に整合させる。 b)顔の特徴やアイデンティティなどの融合機能を高めるために,画像から視覚的属性を抽出する方法を検討する。 (c)WikipediaとChatGPTを利用してエンティティ表現をキャプチャし、静的な視点と動的視点の両方からセマンティックエンリッチメントを実現し、現実のエンティティセマンティクスをよりよく反映する。 Wikimel、Richpedia、Wikidiverseのデータセットの実験では、DWE+がMELの性能向上に有効であることを実証している。 具体的には、これらのデータセットを最適化し、拡張データセット上で最先端のパフォーマンスを達成する。 コードと拡張データセットはhttps://github.com/season1blue/DWETで公開されている。

Multimodal entity linking (MEL) aims to utilize multimodal information (usually textual and visual information) to link ambiguous mentions to unambiguous entities in knowledge base. Current methods facing main issues: (1)treating the entire image as input may contain redundant information. (2)the insufficient utilization of entity-related information, such as attributes in images. (3)semantic inconsistency between the entity in knowledge base and its representation. To this end, we propose DWE+ for multimodal entity linking. DWE+ could capture finer semantics and dynamically maintain semantic consistency with entities. This is achieved by three aspects: (a)we introduce a method for extracting fine-grained image features by partitioning the image into multiple local objects. Then, hierarchical contrastive learning is used to further align semantics between coarse-grained information(text and image) and fine-grained (mention and visual objects). (b)we explore ways to extract visual attributes from images to enhance fusion feature such as facial features and identity. (c)we leverage Wikipedia and ChatGPT to capture the entity representation, achieving semantic enrichment from both static and dynamic perspectives, which better reflects the real-world entity semantics. Experiments on Wikimel, Richpedia, and Wikidiverse datasets demonstrate the effectiveness of DWE+ in improving MEL performance. Specifically, we optimize these datasets and achieve state-of-the-art performance on the enhanced datasets. The code and enhanced datasets are released on https://github.com/season1blue/DWET
翻訳日:2024-04-09 19:30:39 公開日:2024-04-07
# 接触型リファインメント変換器による3次元人間と物体の関節再建

Joint Reconstruction of 3D Human and Object via Contact-Based Refinement Transformer ( http://arxiv.org/abs/2404.04819v1 )

ライセンス: Link先を確認
Hyeongjin Nam, Daniel Sungho Jung, Gyeongsik Moon, Kyoung Mu Lee, (参考訳) 人間と物体の接触は、人間が物体と物理的にどのように相互作用するかを理解するための強い手がかりとなる。 しかし、3次元人物と物体を1枚の画像から再構成するために、人物体接触情報を利用することは、広く研究されていない。 本研究では,人間と物体の接触情報を効果的に活用する新しい関節型3次元物体再構成法(CONTHO)を提案する。 私たちのシステムには2つのコア設計があります。 1)3次元ガイドによる接触推定と評価 2)接触型3次元人間と物体の微細化。 まず,人間と物体の接触推定を正確にするために,まずまず3次元の人間と物体を再構成し,接触推定のための明示的な3次元ガイダンスとして利用する。 第2に, 人体と物体の初期再構成を改良するために, 推定された人体接触に基づいて, 人体の特徴や物体の特徴を効果的に集約する新しい接触型精細変換器を提案する。 提案手法は,人間と物体の誤相関の学習を防止し,正確な3次元再構成を可能にする。 その結果,人間と物体の接触推定と関節再建の両面での最先端性能が得られた。 コードはhttps://github.com/dqj5182/CONTHO_RELEASEで公開されている。

Human-object contact serves as a strong cue to understand how humans physically interact with objects. Nevertheless, it is not widely explored to utilize human-object contact information for the joint reconstruction of 3D human and object from a single image. In this work, we present a novel joint 3D human-object reconstruction method (CONTHO) that effectively exploits contact information between humans and objects. There are two core designs in our system: 1) 3D-guided contact estimation and 2) contact-based 3D human and object refinement. First, for accurate human-object contact estimation, CONTHO initially reconstructs 3D humans and objects and utilizes them as explicit 3D guidance for contact estimation. Second, to refine the initial reconstructions of 3D human and object, we propose a novel contact-based refinement Transformer that effectively aggregates human features and object features based on the estimated human-object contact. The proposed contact-based refinement prevents the learning of erroneous correlation between human and object, which enables accurate 3D reconstruction. As a result, our CONTHO achieves state-of-the-art performance in both human-object contact estimation and joint reconstruction of 3D human and object. The code is publicly available at https://github.com/dqj5182/CONTHO_RELEASE.
翻訳日:2024-04-09 19:30:39 公開日:2024-04-07
# 文脈に富むインテリジェントアプリケーションのための自動ソフトウェア進化を実現するマルチモーダル・コンセプト・フレームワーク

A Data-to-Product Multimodal Conceptual Framework to Achieve Automated Software Evolution for Context-rich Intelligent Applications ( http://arxiv.org/abs/2404.04821v1 )

ライセンス: Link先を確認
Songhui Yue, (参考訳) AIはソフトウェア工学(SE)の分野を大きく変えつつあるが、SEはソフトウェア進化の自動化(ASEv)を促進するためのすべてのフェーズを総合的に検討するフレームワークを必要としている。 その複雑さは、インテリジェントなアプリケーションの複雑さ、データソースの不均一性、コンテキストにおける一定の変化による。 本研究では,ソフトウェアの自動進化を実現するための概念的枠組みを提案し,マルチモーダル学習の重要性を強調した。 Selective Sequential Scope Model (3S) Modelは概念的枠組みに基づいて開発されており、SEフェーズやマルチモーダル学習タスクをカバーする際に、既存の研究と将来の研究を分類することができる。 この研究は、高レベルのASEvの青写真に向けた予備的なステップである。 提案する概念的枠組みは,実践者がこの分野に飛び込むための実践的ガイドラインとして機能する。 この研究はインテリジェントなアプリケーションに関するものだが、フレームワークと分析方法は、AIが彼らのライフサイクルにより多くのインテリジェンスをもたらすため、他のタイプのソフトウェアに適用される可能性がある。

While AI is extensively transforming Software Engineering (SE) fields, SE is still in need of a framework to overall consider all phases to facilitate Automated Software Evolution (ASEv), particularly for intelligent applications that are context-rich, instead of conquering each division independently. Its complexity comes from the intricacy of the intelligent applications, the heterogeneity of the data sources, and the constant changes in the context. This study proposes a conceptual framework for achieving automated software evolution, emphasizing the importance of multimodality learning. A Selective Sequential Scope Model (3S) model is developed based on the conceptual framework, and it can be used to categorize existing and future research when it covers different SE phases and multimodal learning tasks. This research is a preliminary step toward the blueprint of a higher-level ASEv. The proposed conceptual framework can act as a practical guideline for practitioners to prepare themselves for diving into this area. Although the study is about intelligent applications, the framework and analysis methods may be adapted for other types of software as AI brings more intelligence into their life cycles.
翻訳日:2024-04-09 19:30:39 公開日:2024-04-07
# 多レベルスーパービジョンを用いた単眼リモートセンシング画像からの3次元構造復元

3D Building Reconstruction from Monocular Remote Sensing Images with Multi-level Supervisions ( http://arxiv.org/abs/2404.04823v1 )

ライセンス: Link先を確認
Weijia Li, Haote Yang, Zhenghao Hu, Juepeng Zheng, Gui-Song Xia, Conghui He, (参考訳) モノクルリモートセンシング画像からの3Dビルディング再構築は、大規模アプリケーションにおけるデータ取得と可用性の低さから、近年注目を集めている重要かつ困難な研究課題である。 しかし、既存の手法では、完全に教師されたトレーニングのために高価な3Dアノテートサンプルを頼りにしており、大規模なクロスシティシナリオにアプリケーションを制限している。 そこで本研究では,多層構造再構築ネットワークであるMLS-BRNを提案する。 Pseudo Building Bbox CalculatorとRoof-Offsetガイド付きフットプリントエクストラクタの2つの新しいモジュールと、さまざまなタイプのサンプルに対する新しいタスクとトレーニング戦略を設計する。 提案したMLS-BRNは,より少ない3Dアノテートサンプルを用いて,競争性能を向上し,足跡抽出と3D再構成性能を現状と比較して有意に向上することを示した。 この作業のコードとデータセットはhttps://github.com/opendatalab/MLS-BRN.gitで公開される。

3D building reconstruction from monocular remote sensing images is an important and challenging research problem that has received increasing attention in recent years, owing to its low cost of data acquisition and availability for large-scale applications. However, existing methods rely on expensive 3D-annotated samples for fully-supervised training, restricting their application to large-scale cross-city scenarios. In this work, we propose MLS-BRN, a multi-level supervised building reconstruction network that can flexibly utilize training samples with different annotation levels to achieve better reconstruction results in an end-to-end manner. To alleviate the demand on full 3D supervision, we design two new modules, Pseudo Building Bbox Calculator and Roof-Offset guided Footprint Extractor, as well as new tasks and training strategies for different types of samples. Experimental results on several public and new datasets demonstrate that our proposed MLS-BRN achieves competitive performance using much fewer 3D-annotated samples, and significantly improves the footprint extraction and 3D reconstruction performance compared with current state-of-the-art. The code and datasets of this work will be released at https://github.com/opendatalab/MLS-BRN.git.
翻訳日:2024-04-09 19:30:39 公開日:2024-04-07
# 動的残余寿命予測のための混合領域適応法

Mixup Domain Adaptations for Dynamic Remaining Useful Life Predictions ( http://arxiv.org/abs/2404.04824v1 )

ライセンス: Link先を確認
Muhammad Tanzil Furqon, Mahardhika Pratama, Lin Liu, Habibullah, Kutluyil Dogancay, (参考訳) 余剰生活予測(RUL)は、資産計画や維持に欠かせない役割を担っており、ダウンタイムの削減、メンテナンスコストの低減など、産業に多くの利益をもたらす。 研究には様々な努力が注がれているが、既存の作業の多くは、トレーニングフェーズと展開フェーズの同じ条件を前提として、d条件に制限されている。 本稿では、混合ドメイン適応(MDAN)を前進させる問題に対する解決策を提案する。 MDANは、ソースとターゲットドメインを規則化するだけでなく、ソースとターゲットドメインが整列した中間混合ドメインを確立するために、ミックスアップ戦略が実行される3段階のメカニズムを含んでいる。 自己教師付き学習戦略は、監督崩壊問題を防止するために実施される。 MDANを動的RUL予測のための最近の論文と比較した厳密な評価が実施されている。 MDANは12例中12例において、実質的な利益率で相手を上回ります。 さらに,12例中8例に有意差で先行技術に打ち勝つ軸受マシンデータセットを用いてMDANを評価した。 MDANのソースコードは \url{https://github.com/furqon3009/MDAN} で公開されている。

Remaining Useful Life (RUL) predictions play vital role for asset planning and maintenance leading to many benefits to industries such as reduced downtime, low maintenance costs, etc. Although various efforts have been devoted to study this topic, most existing works are restricted for i.i.d conditions assuming the same condition of the training phase and the deployment phase. This paper proposes a solution to this problem where a mix-up domain adaptation (MDAN) is put forward. MDAN encompasses a three-staged mechanism where the mix-up strategy is not only performed to regularize the source and target domains but also applied to establish an intermediate mix-up domain where the source and target domains are aligned. The self-supervised learning strategy is implemented to prevent the supervision collapse problem. Rigorous evaluations have been performed where MDAN is compared to recently published works for dynamic RUL predictions. MDAN outperforms its counterparts with substantial margins in 12 out of 12 cases. In addition, MDAN is evaluated with the bearing machine dataset where it beats prior art with significant gaps in 8 of 12 cases. Source codes of MDAN are made publicly available in \url{https://github.com/furqon3009/MDAN}.
翻訳日:2024-04-09 19:30:39 公開日:2024-04-07
# グラディエントに基づく計算粒状結晶の設計

Gradient-based Design of Computational Granular Crystals ( http://arxiv.org/abs/2404.04825v1 )

ライセンス: Link先を確認
Atoosa Parsa, Corey S. O'Hern, Rebecca Kramer-Bottiglio, Josh Bongard, (参考訳) 物理基板の本質的なダイナミクスを利用して高速でエネルギー効率の高い計算を行う工学的非伝統的な計算装置への関心が高まっている。 グラニュラーメタマテリアルは、センシング、アクティベーション、計算を統合する可能性を持つ波状情報処理デバイスを構築するための有望なプラットフォームとして登場した。 それらの高次元および非線形力学は、個々の粒子の材料特性、幾何学、配置によって形作ることができる非自明で時に反直観的な波動応答をもたらす。 このような高度に調整可能なリッチダイナミクスは、特殊用途の機械コンピューティングに利用することができる。 しかし、現在、大規模な粒状材料の逆設計のための一般的な枠組みは存在しない。 本稿では,物質中の波動伝播の時空間的ダイナミクスとリカレントニューラルネットワークの計算力学との類似性を構築し,高調波駆動グラニュラル結晶の勾配に基づく最適化フレームワークを開発する。 本稿では,機械振動が所定の周波数で情報を伝達する基本論理ゲートの設計に,我々のフレームワークをどのように利用できるかを紹介する。 設計手法を古典的な勾配のない手法と比較し,計算労力の少ない高性能な構成を発見する。 提案手法は, メタマテリアルの設計空間を大幅に拡張し, パラメータ空間を体系的に横切ることで, 所望の機能を持つ材料を見つけることができることを示す。

There is growing interest in engineering unconventional computing devices that leverage the intrinsic dynamics of physical substrates to perform fast and energy-efficient computations. Granular metamaterials are one such substrate that has emerged as a promising platform for building wave-based information processing devices with the potential to integrate sensing, actuation, and computation. Their high-dimensional and nonlinear dynamics result in nontrivial and sometimes counter-intuitive wave responses that can be shaped by the material properties, geometry, and configuration of individual grains. Such highly tunable rich dynamics can be utilized for mechanical computing in special-purpose applications. However, there are currently no general frameworks for the inverse design of large-scale granular materials. Here, we build upon the similarity between the spatiotemporal dynamics of wave propagation in material and the computational dynamics of Recurrent Neural Networks to develop a gradient-based optimization framework for harmonically driven granular crystals. We showcase how our framework can be utilized to design basic logic gates where mechanical vibrations carry the information at predetermined frequencies. We compare our design methodology with classic gradient-free methods and find that our approach discovers higher-performing configurations with less computational effort. Our findings show that a gradient-based optimization method can greatly expand the design space of metamaterials and provide the opportunity to systematically traverse the parameter space to find materials with the desired functionalities.
翻訳日:2024-04-09 19:30:39 公開日:2024-04-07
# 厳密なID保存・制御可能なアクセトリー広告画像生成

Strictly-ID-Preserved and Controllable Accessory Advertising Image Generation ( http://arxiv.org/abs/2404.04828v1 )

ライセンス: Link先を確認
Youze Xue, Binghui Chen, Yifeng Geng, Xuansong Xie, Jiansheng Chen, Hongbing Ma, (参考訳) カスタム・ジェネレーティブ・テキスト・ツー・イメージ・モデルは、与えられた主題によく似た画像を生成する能力を持つ。 しかし、電子商取引シナリオの広告画像生成の文脈では、生成した被験者のアイデンティティが商品の広告と完全に一致していることが重要である。 厳密なID保存型広告画像生成の必要性に対処するため,制御ネットを用いたカスタマイズ画像生成パイプラインを開発した。 当社のアプローチは、イヤリングとモデルの顔とのシームレスな相互作用を促進すると同時に、イヤリングの同一性が維持されていることを保証します。 さらに,多彩で制御可能なディスプレイを実現するために,テキストプロンプトの制限を超えて,モデルのスケール,ポーズ,外観を制御できるマルチブランチ・クロスアテンションアーキテクチャを提案する。 提案手法は, 生成したモデルの顔のきめ細かい制御を実現し, 広告効果を制御し, 獲得する。

Customized generative text-to-image models have the ability to produce images that closely resemble a given subject. However, in the context of generating advertising images for e-commerce scenarios, it is crucial that the generated subject's identity aligns perfectly with the product being advertised. In order to address the need for strictly-ID preserved advertising image generation, we have developed a Control-Net based customized image generation pipeline and have taken earring model advertising as an example. Our approach facilitates a seamless interaction between the earrings and the model's face, while ensuring that the identity of the earrings remains intact. Furthermore, to achieve a diverse and controllable display, we have proposed a multi-branch cross-attention architecture, which allows for control over the scale, pose, and appearance of the model, going beyond the limitations of text prompts. Our method manages to achieve fine-grained control of the generated model's face, resulting in controllable and captivating advertising effects.
翻訳日:2024-04-09 19:30:39 公開日:2024-04-07
# ShoeModel: 拡散モデルによるユーザ指定靴の着用学習

ShoeModel: Learning to Wear on the User-specified Shoes via Diffusion Model ( http://arxiv.org/abs/2404.04833v1 )

ライセンス: Link先を確認
Binghui Chen, Wenyu Li, Yifeng Geng, Xuansong Xie, Wangmeng Zuo, (参考訳) 大規模拡散モデルの開発に伴い、人工知能生成コンテンツ(AIGC)技術が近年人気となっている。 しかし、それを本当に私たちの日常生活に届けるには、まだ未解決の問題だ。 そこで本稿では,AIGC技術を活用したEコマースマーケティング,すなわち人間によるユーザ指定シューズ表示のための超現実的広告画像の作成に焦点をあてる。 具体的には,靴を履く「シューモデル」を提案し,靴と相互作用する人間の足の可塑性画像を生成する。 1)履物領域検出モジュール(WD)、(2)脚位置合成モジュール(LpS)、および最終(3)履物画像生成モジュール(SW)の3つのモジュールから構成される。 第3楽章は順調に演奏される。 ベースラインと比較して、私たちのShoeModelは、さまざまなタイプのシューズを一般化し、靴のID一貫性を維持し、人間と合理的なインタラクションを自動的に生成する能力を持っていることが示されています。 広汎な実験により,提案システムの有効性が示された。 図1は、ShoeModelの入力と出力の例を示しています。

With the development of the large-scale diffusion model, Artificial Intelligence Generated Content (AIGC) techniques are popular recently. However, how to truly make it serve our daily lives remains an open question. To this end, in this paper, we focus on employing AIGC techniques in one filed of E-commerce marketing, i.e., generating hyper-realistic advertising images for displaying user-specified shoes by human. Specifically, we propose a shoe-wearing system, called Shoe-Model, to generate plausible images of human legs interacting with the given shoes. It consists of three modules: (1) shoe wearable-area detection module (WD), (2) leg-pose synthesis module (LpS) and the final (3) shoe-wearing image generation module (SW). Them three are performed in ordered stages. Compared to baselines, our ShoeModel is shown to generalize better to different type of shoes and has ability of keeping the ID-consistency of the given shoes, as well as automatically producing reasonable interactions with human. Extensive experiments show the effectiveness of our proposed shoe-wearing system. Figure 1 shows the input and output examples of our ShoeModel.
翻訳日:2024-04-09 19:30:39 公開日:2024-04-07
# ソフトウェア工学のためのLLMベースのマルチエージェントシステム:ビジョンと道の先

LLM-Based Multi-Agent Systems for Software Engineering: Vision and the Road Ahead ( http://arxiv.org/abs/2404.04834v1 )

ライセンス: Link先を確認
Junda He, Christoph Treude, David Lo, (参考訳) 大規模言語モデル(LLM)を自律エージェントに統合することは、人間の計画や推論と競合する認知能力を提供することによって、研究の展望に大きな変化をもたらす。 本稿では,LLMをベースとしたマルチエージェント(Multi-Agent, LMA)システムの,複雑かつ多面的なソフトウェア工学の課題に対処する進化を考察する。 LMAシステムには、協調的な相互検査、自律的な問題解決、複雑なソフトウェアプロジェクトに対するスケーラブルなソリューションなど、数多くのメリットがある。 将来のソフトウェアエンジニアリングプラクティスにおけるLMAシステムの役割を調べることで、このビジョンペーパーは潜在的なアプリケーションと新たな課題を強調します。 さらに、研究の具体的な機会を指摘し、今後の研究方向性を導くための一連の研究課題で研究アジェンダを締結する。

Integrating Large Language Models(LLMs) into autonomous agents marks a significant shift in the research landscape by offering cognitive abilities competitive to human planning and reasoning. This paper envisions the evolution of LLM-based Multi-Agent (LMA) systems in addressing complex and multi-faceted software engineering challenges. LMA systems introduce numerous benefits, including enhanced robustness through collaborative cross-examination, autonomous problem-solving, and scalable solutions to complex software projects. By examining the role of LMA systems in future software engineering practices, this vision paper highlights the potential applications and emerging challenges. We further point to specific opportunities for research and conclude with a research agenda with a set of research questions to guide future research directions.
翻訳日:2024-04-09 19:20:53 公開日:2024-04-07
# データのバイアス:男性は自然に正しい、女性がリードを追いかける役割である

Data Bias According to Bipol: Men are Naturally Right and It is the Role of Women to Follow Their Lead ( http://arxiv.org/abs/2404.04838v1 )

ライセンス: Link先を確認
Irene Pagliai, Goya van Boven, Tosin Adewumi, Lama Alkhaled, Namrata Gurung, Isabella Södergren, Elisa Barney, (参考訳) 3つの言語におけるバイアスに関する新しい大きなラベル付きデータセットを導入し、イングランドのGLUE/SuperGLUEリーダーボードのベンチマークデータセットを含む、評価された5つの言語の10つのデータセットすべてにバイアスが存在することを示す。 3つの新しい言語は、合計600万のラベル付きサンプルを与え、SotAの多言語事前トレーニングモデルであるmT5とmBERTを使ってこれらのデータセットをベンチマークします。 偏見に基づく社会的偏見の課題は、最近のAIと大規模言語モデル(LLM)による出来事が示すように、ユビキタスである。 この課題に触発された私たちは、複数のデータセットでバイアスを推定することにしました。 我々は、最近のバイアス測定値を比較し、測定値に説明可能性を持つbipolを使用します。 また, 信頼度95%, エラーマージン7%を用いて, 有毒なデータセット群からランダムに200のサンプルをサンプリングすることにより, 有毒なコメントにバイアスが存在するという不確定な仮定も確認した。 アノテーションの品質を確保するために、30個の金サンプルが200個のサンプルにランダムに分散された。 以上の結果から,多くのデータセットが男性バイアス(女性に対する偏見)を持つことが明らかとなった。 新しいデータセット、レキシカ、モデル、コードを公開しています。

We introduce new large labeled datasets on bias in 3 languages and show in experiments that bias exists in all 10 datasets of 5 languages evaluated, including benchmark datasets on the English GLUE/SuperGLUE leaderboards. The 3 new languages give a total of almost 6 million labeled samples and we benchmark on these datasets using SotA multilingual pretrained models: mT5 and mBERT. The challenge of social bias, based on prejudice, is ubiquitous, as recent events with AI and large language models (LLMs) have shown. Motivated by this challenge, we set out to estimate bias in multiple datasets. We compare some recent bias metrics and use bipol, which has explainability in the metric. We also confirm the unverified assumption that bias exists in toxic comments by randomly sampling 200 samples from a toxic dataset population using the confidence level of 95% and error margin of 7%. Thirty gold samples were randomly distributed in the 200 samples to secure the quality of the annotation. Our findings confirm that many of the datasets have male bias (prejudice against women), besides other types of bias. We publicly release our new datasets, lexica, models, and codes.
翻訳日:2024-04-09 19:20:53 公開日:2024-04-07
# DevSecOpsのためのAI: ランドスケープと将来の可能性

AI for DevSecOps: A Landscape and Future Opportunities ( http://arxiv.org/abs/2404.04839v1 )

ライセンス: Link先を確認
Michael Fu, Jirat Pasuksmit, Chakkrit Tantithamthavorn, (参考訳) DevOpsは、最も急速に進化するソフトウェア開発パラダイムの1つです。 ソフトウェアシステムのセキュリティに関する懸念が高まっている中、DevSecOpsパラダイムが注目され、実践者がDevOpsワークフローにセキュリティプラクティスをシームレスに組み込むように促された。 しかしながら、セキュリティをDevOpsワークフローに統合することは、アジリティに影響を与え、デリバリ速度を阻害する可能性がある。 近年、人工知能(AI)の進歩は、ソフトウェアセキュリティを含む様々なソフトウェア領域における自動化に革命をもたらした。 AI駆動のセキュリティアプローチ、特に機械学習やディープラーニングを活用するものは、セキュリティワークフローの自動化を約束する。 これにより手作業の労力を減らし、DevOpsに統合して、未中断のデリバリ速度を確保し、DevSecOpsパラダイムを同時に整合させることが可能になる。 本稿では、DevOpsに適用可能なAI駆動型セキュリティ技術の総合的な展望を示し、ソフトウェア開発プロセスにおけるセキュリティ、信頼性、効率性を高めるための道筋を特定することによって、AIとDevSecOpsのクリティカルな交差に寄与することを目的とする。 2017年から2023年までの99の論文を分析した。 具体的には2つの重要な研究課題(RQ)に対処する。 RQ1では、DevOpsプロセスに関連する12のセキュリティタスクを特定し、既存のAI駆動型セキュリティアプローチをレビューしました。 RQ2では、既存のAI駆動型セキュリティアプローチが直面する15の課題と、今後の研究機会の導出を発見しました。 我々の発見から洞察を得た上で、私たちは最先端のAI駆動型セキュリティアプローチについて議論し、既存の研究における課題を強調し、将来の機会への道を提案しました。

DevOps has emerged as one of the most rapidly evolving software development paradigms. With the growing concerns surrounding security in software systems, the DevSecOps paradigm has gained prominence, urging practitioners to incorporate security practices seamlessly into the DevOps workflow. However, integrating security into the DevOps workflow can impact agility and impede delivery speed. Recently, the advancement of artificial intelligence (AI) has revolutionized automation in various software domains, including software security. AI-driven security approaches, particularly those leveraging machine learning or deep learning, hold promise in automating security workflows. They reduce manual efforts, which can be integrated into DevOps to ensure uninterrupted delivery speed and align with the DevSecOps paradigm simultaneously. This paper seeks to contribute to the critical intersection of AI and DevSecOps by presenting a comprehensive landscape of AI-driven security techniques applicable to DevOps and identifying avenues for enhancing security, trust, and efficiency in software development processes. We analyzed 99 research papers spanning from 2017 to 2023. Specifically, we address two key research questions (RQs). In RQ1, we identified 12 security tasks associated with the DevOps process and reviewed existing AI-driven security approaches. In RQ2, we discovered 15 challenges encountered by existing AI-driven security approaches and derived future research opportunities. Drawing insights from our findings, we discussed the state-of-the-art AI-driven security approaches, highlighted challenges in existing research, and proposed avenues for future opportunities.
翻訳日:2024-04-09 19:20:53 公開日:2024-04-07
# 分散化の展開 - テクノロジ,比較,Bitcoin,Ethereum,ソラナブロックチェーンの総合的レビュー

Unveiling Decentralization: A Comprehensive Review of Technologies, Comparison, Challenges in Bitcoin, Ethereum, and Solana Blockchain ( http://arxiv.org/abs/2404.04841v1 )

ライセンス: Link先を確認
Han Song, Yihao Wei, Zhongche Qu, Weihan Wang, (参考訳) Bitcoinは、人類の歴史を通じて分散取引における画期的な発展であり、仲介者不要の取引を可能にしている。 暗号証明機構を活用することで、Bitcoinはサードパーティの金融機関への依存をなくすことができる。 Ethereumは、市場資本化によって第2位の暗号通貨としてランクインし、スマートコントラクトと分散アプリケーションを導入してBitcoinの基礎を築き上げている。 EthereumはBitcoinのスクリプト言語の限界を超え、複雑な計算タスクを実行するための完全なチューリング完全性を実現しようとしている。 Solanaは、高性能ブロックチェーンのための新しいアーキテクチャを導入し、タイムスタンプを使用して分散トランザクションを検証し、ブロック生成スループットを大幅に向上させた。 これらのブロックチェーン技術、それらの区別、および関連する課題の総合的な検証を通じて、本稿は、研究者と実践者の両方に貴重な洞察と比較分析を提供することを目的としている。

Bitcoin stands as a groundbreaking development in decentralized exchange throughout human history, enabling transactions without the need for intermediaries. By leveraging cryptographic proof mechanisms, Bitcoin eliminates the reliance on third-party financial institutions. Ethereum, ranking as the second-largest cryptocurrency by market capitalization, builds upon Bitcoin's groundwork by introducing smart contracts and decentralized applications. Ethereum strives to surpass the limitations of Bitcoin's scripting language, achieving full Turing-completeness for executing intricate computational tasks. Solana introduces a novel architecture for high-performance blockchain, employing timestamps to validate decentralized transactions and significantly boosting block creation throughput. Through a comprehensive examination of these blockchain technologies, their distinctions, and the associated challenges, this paper aims to offer valuable insights and comparative analysis for both researchers and practitioners.
翻訳日:2024-04-09 19:20:53 公開日:2024-04-07
# SLPL SHROOM at SemEval\-2024 Task 06: 幻覚検出能力に関する総合的研究

SLPL SHROOM at SemEval\-2024 Task 06: A comprehensive study on models ability to detect hallucination ( http://arxiv.org/abs/2404.04845v1 )

ライセンス: Link先を確認
Pouya Fallah, Soroush Gooran, Mohammad Jafarinasab, Pouya Sadeghi, Reza Farnia, Amirreza Tarabkhah, Zainab Sadat Taghavi, Hossein Sameti, (参考訳) 言語モデル、特に生成モデルは幻覚に影響を受けやすく、事実的知識や原文と矛盾する出力を生成する。 本研究では,SemEval-2024タスク6の3つのタスク(機械翻訳,定義モデリング,パラフレーズ生成)における幻覚検出手法について検討する。 生成したテキストと事実参照のセマンティックな類似性、および相互の出力を判断する言語モデルのアンサンブルの2つの方法を評価する。 以上の結果から,意味的類似性は試行データにおいて適度な精度と相関スコアを達成し,アンサンブル法は幻覚検出の複雑さに関する洞察を提供するが,期待には届かなかった。 この研究は幻覚検出の課題を強調し、この重要な領域におけるさらなる研究の必要性を浮き彫りにしている。

Language models, particularly generative models, are susceptible to hallucinations, generating outputs that contradict factual knowledge or the source text. This study explores methods for detecting hallucinations in three SemEval-2024 Task 6 tasks: Machine Translation, Definition Modeling, and Paraphrase Generation. We evaluate two methods: semantic similarity between the generated text and factual references, and an ensemble of language models that judge each other's outputs. Our results show that semantic similarity achieves moderate accuracy and correlation scores in trial data, while the ensemble method offers insights into the complexities of hallucination detection but falls short of expectations. This work highlights the challenges of hallucination detection and underscores the need for further research in this critical area.
翻訳日:2024-04-09 19:20:53 公開日:2024-04-07
# F-MALLOC:ニューラルネットワーク翻訳における連続学習のためのフィードフォワードメモリ割り当て

F-MALLOC: Feed-forward Memory Allocation for Continual Learning in Neural Machine Translation ( http://arxiv.org/abs/2404.04846v1 )

ライセンス: Link先を確認
Junhong Wu, Yuchen Liu, Chengqing Zong, (参考訳) ニューラル・マシン・トランスレーション(NMT)の進化する展望の中で、プレトレイン-then-finetuneパラダイムは印象的な結果をもたらした。 しかし、カタストロフィック・フォーッティング(CF)の永続的な挑戦は依然としてハードルとなっている。 従来の研究では、CFに対処する継続学習(CL)メソッドを導入していたが、これらのアプローチは、システムの拡張性を忘れることと避けることと、システムの拡張性を維持することの微妙なバランスに支障をきたした。 これを解決するために、CL法として$\textbf{F-MALLOC}$$$\textbf{F}$eed-forward $\textbf{M}$emory $\textbf{ALLOC}ation)$を提案する。 F-MALLOCは、フィードフォワード層が神経記憶をエミュレートし、重要な翻訳知識をカプセル化するという最近の知見に着想を得ている。 フィードフォワード層を個別のメモリセルに分解し、これらのメモリを異なるタスクに割り当てる。 これらの記憶を割り当て、保護することを学ぶことで、堅牢な拡張性を確保しつつ、効果的にCFを軽減できる。 さらに,NMTシステムの多段階CLに対する包括的評価プロトコルを提案する。 この新プロトコルの後に行われた実験では、BLEUスコアが高く、ほとんど忘れられないことが証明されたF-MALLOCの優れた性能を示した。

In the evolving landscape of Neural Machine Translation (NMT), the pretrain-then-finetune paradigm has yielded impressive results. However, the persistent challenge of Catastrophic Forgetting (CF) remains a hurdle. While previous work has introduced Continual Learning (CL) methods to address CF, these approaches grapple with the delicate balance between avoiding forgetting and maintaining system extensibility. To address this, we propose a CL method, named $\textbf{F-MALLOC}$ ($\textbf{F}$eed-forward $\textbf{M}$emory $\textbf{ALLOC}ation)$. F-MALLOC is inspired by recent insights highlighting that feed-forward layers emulate neural memories and encapsulate crucial translation knowledge. It decomposes feed-forward layers into discrete memory cells and allocates these memories to different tasks. By learning to allocate and safeguard these memories, our method effectively alleviates CF while ensuring robust extendability. Besides, we propose a comprehensive assessment protocol for multi-stage CL of NMT systems. Experiments conducted following this new protocol showcase the superior performance of F-MALLOC, evidenced by higher BLEU scores and almost zero forgetting.
翻訳日:2024-04-09 19:20:53 公開日:2024-04-07
# ディープビデオ圧縮のためのタスク認識エンコーダ制御

Task-Aware Encoder Control for Deep Video Compression ( http://arxiv.org/abs/2404.04848v1 )

ライセンス: Link先を確認
Xingtong Ge, Jixiang Luo, Xinjie Zhang, Tongda Xu, Guo Lu, Dailan He, Jing Geng, Yan Wang, Jun Zhang, Hongwei Qin, (参考訳) マシンタスクのためのディープビデオ圧縮(DVC)に関する以前の研究は、通常、特定のタスクごとに独自のコーデックをトレーニングし、タスクごとに専用のデコーダを強制する必要がある。 対照的に、従来のビデオコーデックはフレキシブルなエンコーダコントローラを採用しており、モード予測のようなメカニズムによって単一のコーデックを異なるタスクに適応させることができる。 このことからインスピレーションを得て,機械用ディープビデオ圧縮のための革新的なエンコーダコントローラを導入する。 モード予測とグループ・オブ・ピクチャーズ(GoP)選択モジュールを備える。 提案手法は,符号化段階での制御を集中化し,検出やトラッキングなど,さまざまなタスクに適応可能なエンコーダ調整を実現するとともに,標準の事前学習DVCデコーダとの互換性を維持する。 実験的な証拠は,本手法が既存の訓練済みDVCを用いて,複数のタスクにまたがって適用可能であることを示している。 さらに,本手法が従来のDVCよりも25%ほど優れており,事前学習したデコーダが1つしかないことが実証された。

Prior research on deep video compression (DVC) for machine tasks typically necessitates training a unique codec for each specific task, mandating a dedicated decoder per task. In contrast, traditional video codecs employ a flexible encoder controller, enabling the adaptation of a single codec to different tasks through mechanisms like mode prediction. Drawing inspiration from this, we introduce an innovative encoder controller for deep video compression for machines. This controller features a mode prediction and a Group of Pictures (GoP) selection module. Our approach centralizes control at the encoding stage, allowing for adaptable encoder adjustments across different tasks, such as detection and tracking, while maintaining compatibility with a standard pre-trained DVC decoder. Empirical evidence demonstrates that our method is applicable across multiple tasks with various existing pre-trained DVCs. Moreover, extensive experiments demonstrate that our method outperforms previous DVC by about 25% bitrate for different tasks, with only one pre-trained decoder.
翻訳日:2024-04-09 19:20:53 公開日:2024-04-07
# 悪意のある目標をベニーナラティブに隠した - 論理的連鎖注入による大規模言語モデルのジェイルブレイク

Hidden You Malicious Goal Into Benigh Narratives: Jailbreak Large Language Models through Logic Chain Injection ( http://arxiv.org/abs/2404.04849v1 )

ライセンス: Link先を確認
Zhilong Wang, Yebo Cao, Peng Liu, (参考訳) 言語モデルモデル(LLM)に対するジェイルブレイク攻撃には、悪意のあるコンテンツを生成するためにモデルを活用することを目的としたクラフトプロンプトが含まれる。 既存のジェイルブレイク攻撃はLLMを欺くことができるが、人間を欺くことはできない。 本稿では,LLMと人間(セキュリティアナリスト)の両方を騙すことができる新しいタイプのジェイルブレイク攻撃を提案する。 人間の考え方は、嘘が真実に隠されている場合、容易に騙される。 この知見に基づいて,悪意ある意図を真理に注入するロジックチェーンインジェクション攻撃を提案した。 論理鎖インジェクション攻撃は、まず悪意のあるターゲットを良心的なナレーションの連鎖に分解し、そのナレーションを疑わしい事実とともに関連する良心的な記事に分配する。 このように、新たに生成されたプロンプトは、LSMを騙すだけでなく、人間を騙すこともできる。

Jailbreak attacks on Language Model Models (LLMs) entail crafting prompts aimed at exploiting the models to generate malicious content. Existing jailbreak attacks can successfully deceive the LLMs, however they cannot deceive the human. This paper proposes a new type of jailbreak attacks which can deceive both the LLMs and human (i.e., security analyst). The key insight of our idea is borrowed from the social psychology - that is human are easily deceived if the lie is hidden in truth. Based on this insight, we proposed the logic-chain injection attacks to inject malicious intention into benign truth. Logic-chain injection attack firstly dissembles its malicious target into a chain of benign narrations, and then distribute narrations into a related benign article, with undoubted facts. In this way, newly generate prompt cannot only deceive the LLMs, but also deceive human.
翻訳日:2024-04-09 19:20:53 公開日:2024-04-07
# Lucky 52:ファインチューンな大規模言語モデルを教えるには、何つの言語が必要か?

Lucky 52: How Many Languages Are Needed to Instruction Fine-Tune Large Language Models? ( http://arxiv.org/abs/2404.04850v1 )

ライセンス: Link先を確認
Shaoxiong Ji, Pinzhen Chen, (参考訳) 多言語ダウンストリームタスクのための微調整された大きな言語モデルは、異なる言語コンテキストのニュアンスや構造を効果的に捉えるために様々な言語セットを必要とする。 具体的数は所望のスコープや対象言語によって異なるが,細調整のための言語選択を取り入れた言語数,言語露出,類似性などが検討すべき重要な側面である,と論じる。 1から52の言語で大規模多言語モデルを微調整することで、ある疑問に答える: マルチ言語タスクの命令微調整には、どのくらいの言語が必要か? 言語数の増加に伴い,マルチリンガル命令の微調整モデルが多言語ベンチマークでどのように振る舞うかを考察し,言語露出と類似性の観点から考察する。

Fine-tuning large language models for multilingual downstream tasks requires a diverse set of languages to capture the nuances and structures of different linguistic contexts effectively. While the specific number varies depending on the desired scope and target languages, we argue that the number of languages, language exposure, and similarity that incorporate the selection of languages for fine-tuning are some important aspects to examine. By fine-tuning large multilingual models on 1 to 52 languages, this paper answers one question: How many languages are needed in instruction fine-tuning for multilingual tasks? We investigate how multilingual instruction fine-tuned models behave on multilingual benchmarks with an increasing number of languages and discuss our findings from the perspective of language exposure and similarity.
翻訳日:2024-04-09 19:20:53 公開日:2024-04-07
# サイバー詐欺の文脈チャート生成

Contextual Chart Generation for Cyber Deception ( http://arxiv.org/abs/2404.04854v1 )

ライセンス: Link先を確認
David D. Nguyen, David Liebowitz, Surya Nepal, Salil S. Kanhere, Sharif Abuadbba, (参考訳) ハニーファイルは、侵害されたシステムの侵入者を惹きつけ、検出するために設計されたセキュリティ資産である。 ハニーファイルは、本物の機密文書を模倣し、貴重なデータの存在を錯覚させるハニーポットの一種である。 ハニーファイルとの相互作用は侵入者の存在を明らかにし、彼らの目標と意図に関する洞察を与える。 しかし、彼らの実践的利用は、手動で現実的なコンテンツを作成することに関連する時間、コスト、労力によって制限されている。 大規模言語モデルの導入により、高品質なテキスト生成が可能になったが、ハニーファイルには、チャート、テーブル、画像など、さまざまなコンテンツが含まれている。 このコンテンツは、ハニーファイル内と、それらが模倣する実際のドキュメントの両方で意味的に一貫性があり、侵入者を欺くことに成功しなければなりません。 本稿では,ハニーファイルコンテンツ生成問題において重要な要素である文書チャートに焦点をあてる。 チャートは企業文書で広く知られており、量的および科学的なデータを伝えるのに一般的に使われている。 DALL-Eのような既存の画像生成モデルは、理解不能なテキストと理解不能なデータでチャートを生成する傾向がある。 我々は,マルチタスク変換器と特殊マルチヘッドオートエンコーダという2つの目的に構築された生成モデルを組み合わせることで,この問題に対してマルチモーダルなアプローチをとる。 Transformerはリアルなキャプションとプロットテキストを生成し、オートエンコーダはプロットの基盤となる表データを生成する。 自動ミツバチ生成の分野を前進させるために、新しい文書チャートデータセットもリリースし、新しいキーワードセマンティックマッチング(KSM)を提案する。 この尺度は、コーパスのキーワードとより小さな単語の袋の間の意味的一貫性を測定する。 大規模な実験では、ChatGPTやGPT4など、複数の大きな言語モデルに対して優れたパフォーマンスを示している。

Honeyfiles are security assets designed to attract and detect intruders on compromised systems. Honeyfiles are a type of honeypot that mimic real, sensitive documents, creating the illusion of the presence of valuable data. Interaction with a honeyfile reveals the presence of an intruder, and can provide insights into their goals and intentions. Their practical use, however, is limited by the time, cost and effort associated with manually creating realistic content. The introduction of large language models has made high-quality text generation accessible, but honeyfiles contain a variety of content including charts, tables and images. This content needs to be plausible and realistic, as well as semantically consistent both within honeyfiles and with the real documents they mimic, to successfully deceive an intruder. In this paper, we focus on an important component of the honeyfile content generation problem: document charts. Charts are ubiquitous in corporate documents and are commonly used to communicate quantitative and scientific data. Existing image generation models, such as DALL-E, are rather prone to generating charts with incomprehensible text and unconvincing data. We take a multi-modal approach to this problem by combining two purpose-built generative models: a multitask Transformer and a specialized multi-head autoencoder. The Transformer generates realistic captions and plot text, while the autoencoder generates the underlying tabular data for the plot. To advance the field of automated honeyplot generation, we also release a new document-chart dataset and propose a novel metric Keyword Semantic Matching (KSM). This metric measures the semantic consistency between keywords of a corpus and a smaller bag of words. Extensive experiments demonstrate excellent performance against multiple large language models, including ChatGPT and GPT4.
翻訳日:2024-04-09 19:20:53 公開日:2024-04-07
# エッジ検出のためのマルチストリーム・マルチスケール融合ネットMsmsfnet

Msmsfnet: a multi-stream and multi-scale fusion net for edge detection ( http://arxiv.org/abs/2404.04856v1 )

ライセンス: Link先を確認
Chenguang Liu, Chisheng Wang, Feifei Dong, Xin Su, Chuanhua Zhu, Dejin Zhang, Qingquan Li, (参考訳) エッジ検出は、コンピュータビジョンにおける長年の課題である。 近年のディープラーニングに基づくアルゴリズムは、公開データセットにおける最先端のパフォーマンスを実現する。 これらのアルゴリズムの効率にもかかわらず、その性能はImageNetデータセット上のバックボーンネットワークの事前訓練された重みに大きく依存している。 これにより、ディープラーニングベースのエッジ検出器の設計スペースが大幅に制限される。 新しいモデルを考案したいときは、まずImageNetデータセットでこの新しいモデルをトレーニングし、それからエッジ検出データセットを使用してモデルを微調整する必要があります。 この比較は、さもなくば不公平だろう。 しかし、多くの研究者が限られた計算資源のためにImageNetデータセットでモデルをトレーニングすることは不可能である。 本研究では,現在最先端のディープラーニングに基づくエッジ検出器を用いて,スクラッチからトレーニングしたデータセットを公開し,新たなネットワークアーキテクチャ,マルチストリームおよびマルチスケールフュージョンネット(msmsfnet)を考案し,エッジ検出を行う。 実験では、すべてのモデルをスクラッチからトレーニングすることで、比較の公正性を確保することで、最先端のディープラーニングベースのエッジ検出器を3つの公開データセットで上回ります。

Edge detection is a long standing problem in computer vision. Recent deep learning based algorithms achieve state of-the-art performance in publicly available datasets. Despite the efficiency of these algorithms, their performance, however, relies heavily on the pretrained weights of the backbone network on the ImageNet dataset. This limits heavily the design space of deep learning based edge detectors. Whenever we want to devise a new model, we have to train this new model on the ImageNet dataset first, and then fine tune the model using the edge detection datasets. The comparison would be unfair otherwise. However, it is usually not feasible for many researchers to train a model on the ImageNet dataset due to the limited computation resources. In this work, we study the performance that can be achieved by state-of-the-art deep learning based edge detectors in publicly available datasets when they are trained from scratch, and devise a new network architecture, the multi-stream and multi scale fusion net (msmsfnet), for edge detection. We show in our experiments that by training all models from scratch to ensure the fairness of comparison, out model outperforms state-of-the art deep learning based edge detectors in three publicly available datasets.
翻訳日:2024-04-09 19:20:53 公開日:2024-04-07
# マクロ的な観点からのニューラルネットワークの遅延学習

Demystifying Lazy Training of Neural Networks from a Macroscopic Viewpoint ( http://arxiv.org/abs/2404.04859v1 )

ライセンス: Link先を確認
Yuqing Li, Tao Luo, Qixuan Zhou, (参考訳) 本稿では、初期化過程において、重みパラメータによって導入された様々な要因の複雑な相互作用を調べることにより、ニューラルネットワークトレーニングダイナミクスの理解を深める。 我々は、Luo et al(J. Mach. Learn. Res., Vol. 22 Iss. 1, No. 71, pp 3327-3373)の基本的な研究に触発され、マクロ的な限界のレンズを通してニューラルネットワークの勾配勾配のダイナミクスを探索し、その振る舞いを無限の傾向の$m$として分析する。 本研究は,他のニューラルネットワークアーキテクチャに容易に拡張可能な,多層完全連結ニューラルネットワーク用に設計された改良された手法を用いた統一的アプローチを提案する。 重みパラメータが使用する特定の初期化スキームによらず、勾配降下が深層ニューラルネットワークを高速に学習損失に導くことは明らかであり、出力関数$\kappa$の初期スケールが一定のしきい値を超えることを仮定する。 テタラジー領域として特徴づけられるこの体制は、ニューラルネットワークのトレーニング行動に影響を及ぼす他の要因に対して、初期規模の$\kappa$の圧倒的な影響をアクセントする。 さらに,本手法はニューラルタンジェントカーネル(NTK)パラダイムからインスピレーションを得て,適用範囲を広げる。 NTK は通常、$\lim_{m\to\infty}\frac{\log \kappa}{\log m}=\frac{1}{2}$ と仮定し、各重みパラメータを $\frac{1}{\sqrt{m}}$ でスケールさせるが、我々のテータラジーな体制では、この因子を捨て、条件を $\lim_{m\to\infty}\frac{\log \kappa}{\log m}>0$ に緩和する。 NTKと同様に、勾配降下によって訓練されたテータ遅延規則内の過パラメータ化されたニューラルネットワークの挙動は、特定のカーネルによって効果的に説明できる。 厳密な分析を通じて、ニューラルネットワークのトレーニングダイナミクスの管理における$\kappa$の重要な役割を解明する。

In this paper, we advance the understanding of neural network training dynamics by examining the intricate interplay of various factors introduced by weight parameters in the initialization process. Motivated by the foundational work of Luo et al. (J. Mach. Learn. Res., Vol. 22, Iss. 1, No. 71, pp 3327-3373), we explore the gradient descent dynamics of neural networks through the lens of macroscopic limits, where we analyze its behavior as width $m$ tends to infinity. Our study presents a unified approach with refined techniques designed for multi-layer fully connected neural networks, which can be readily extended to other neural network architectures. Our investigation reveals that gradient descent can rapidly drive deep neural networks to zero training loss, irrespective of the specific initialization schemes employed by weight parameters, provided that the initial scale of the output function $\kappa$ surpasses a certain threshold. This regime, characterized as the theta-lazy area, accentuates the predominant influence of the initial scale $\kappa$ over other factors on the training behavior of neural networks. Furthermore, our approach draws inspiration from the Neural Tangent Kernel (NTK) paradigm, and we expand its applicability. While NTK typically assumes that $\lim_{m\to\infty}\frac{\log \kappa}{\log m}=\frac{1}{2}$, and imposes each weight parameters to scale by the factor $\frac{1}{\sqrt{m}}$, in our theta-lazy regime, we discard the factor and relax the conditions to $\lim_{m\to\infty}\frac{\log \kappa}{\log m}>0$. Similar to NTK, the behavior of overparameterized neural networks within the theta-lazy regime trained by gradient descent can be effectively described by a specific kernel. Through rigorous analysis, our investigation illuminates the pivotal role of $\kappa$ in governing the training dynamics of neural networks.
翻訳日:2024-04-09 19:20:53 公開日:2024-04-07
# ByteEdit: 生成イメージ編集の強化、補完、高速化

ByteEdit: Boost, Comply and Accelerate Generative Image Editing ( http://arxiv.org/abs/2404.04860v1 )

ライセンス: Link先を確認
Yuxi Ren, Jie Wu, Yanzuo Lu, Huafeng Kuang, Xin Xia, Xionghui Wang, Qianqian Wang, Yixing Zhu, Pan Xie, Shiyin Wang, Xuefeng Xiao, Yitong Wang, Min Zheng, Lean Fu, (参考訳) 拡散に基づく生成画像編集の最近の進歩は、画像のアウトペイントとインペイントタスクのランドスケープを再構築し、大きな革命を引き起こした。 これらの努力にもかかわらず、フィールドは次のような固有の課題に悩まされる。 i) 品質が劣るさま 二 整合性が悪いこと。 三 執行の順守が不十分であること。 四 準最適生成効率 これらの障害に対処するため,我々はByteEditを紹介した。ByteEditは,生成画像編集タスクの強化,補完,高速化を念頭に設計した,革新的なフィードバック学習フレームワークである。 ByteEditは、美学と画像テキストアライメントを強化するためのイメージ報酬モデルをシームレスに統合するとともに、出力のコヒーレンスを促進するために調整された、密度の高いピクセルレベルの報酬モデルも導入している。 さらに,モデルの推論速度を高速化するために,先駆的かつ先進的なフィードバック学習戦略を提案する。 大規模なユーザ評価を通じて、ByteEditは、Adobe、Canva、MeiTuといった主要な生成画像編集製品を、世代品質と一貫性の両方で上回っていることを実証した。 ByteEdit-Outpaintingは、ベースラインモデルと比較して、それぞれ388%と135%の品質と一貫性が著しく向上している。 実験では、我々の加速度モデルが品質と一貫性の点で優れたパフォーマンスを保っていることも検証された。

Recent advancements in diffusion-based generative image editing have sparked a profound revolution, reshaping the landscape of image outpainting and inpainting tasks. Despite these strides, the field grapples with inherent challenges, including: i) inferior quality; ii) poor consistency; iii) insufficient instrcution adherence; iv) suboptimal generation efficiency. To address these obstacles, we present ByteEdit, an innovative feedback learning framework meticulously designed to Boost, Comply, and Accelerate Generative Image Editing tasks. ByteEdit seamlessly integrates image reward models dedicated to enhancing aesthetics and image-text alignment, while also introducing a dense, pixel-level reward model tailored to foster coherence in the output. Furthermore, we propose a pioneering adversarial and progressive feedback learning strategy to expedite the model's inference speed. Through extensive large-scale user evaluations, we demonstrate that ByteEdit surpasses leading generative image editing products, including Adobe, Canva, and MeiTu, in both generation quality and consistency. ByteEdit-Outpainting exhibits a remarkable enhancement of 388% and 135% in quality and consistency, respectively, when compared to the baseline model. Experiments also verfied that our acceleration models maintains excellent performance results in terms of quality and consistency.
翻訳日:2024-04-09 19:20:53 公開日:2024-04-07
# 内部製品のためのプライバシー保護型トレーサブル機能暗号化

Privacy-Preserving Traceable Functional Encryption for Inner Product ( http://arxiv.org/abs/2404.04861v1 )

ライセンス: Link先を確認
Muyao Qiu, Jinguang Han, (参考訳) 関数暗号は公開鍵暗号の新しいパラダイムを導入し、復号化は暗号化データの関数値のみを明らかにする。 FE-IPのキーリーク問題やトレースユーザを抑制するため、内部製品(TFE-IP)用のトレース可能な関数暗号化と呼ばれる新しいプリミティブが提案されている。 しかし、既存のTFE-IP方式では、ユーザのアイデンティティのプライバシ保護は考慮されていない。 プライバシと説明責任のバランスをとるために,内部製品(PPTFE-IP)のプライバシー保護型トレーサビリティ機能暗号化の概念を提案し,具体的構成を提案する。 鍵共有を防止するため,鍵生成センタ (KGC) と利用者は,鍵の同一性について何も知らないまま鍵を生成するために,鍵生成センタ (KGC) と利用者が相互にセキュアな計算プロトコルを実行する,(3) 利用者は鍵の正しさを検証できる,(4) 利用者は鍵に埋め込まれた2つのベクトルの内部積を暗号文で計算できる,(5) トレーサだけが鍵に埋め込まれたIDをトレースできる,といった特徴がある。 提案手法の安全性は,よく知られた複雑性の仮定に還元され,その効率を評価するために実装が実施される。 ユーザのプライバシを保護し,必要に応じてトレーサビリティを提供することが,我々の計画の斬新さだ。

Functional encryption introduces a new paradigm of public key encryption that decryption only reveals the function value of encrypted data. To curb key leakage issues and trace users in FE-IP, a new primitive called traceable functional encryption for inner product (TFE-IP) has been proposed. However, the privacy protection of user's identities has not been considered in the existing TFE-IP schemes. In order to balance privacy and accountability, we propose the concept of privacy-preserving traceable functional encryption for inner product (PPTFE-IP) and give a concrete construction. Our scheme provides the following features: (1) To prevent key sharing, a user's key is bound with both his/her identity and a vector; (2) The key generation center (KGC) and a user execute a two-party secure computing protocol to generate a key without the former knowing anything about the latter's identity; (3) Each user can verify the correctness of his/her key; (4) A user can calculate the inner product of the two vectors embedded in his/her key and in a ciphertext; (5) Only the tracer can trace the identity embedded in a key. The security of our scheme is formally reduced to well-known complexity assumptions, and the implementation is conducted to evaluate its efficiency. The novelty of our scheme is to protect users' privacy and provide traceability if required.
翻訳日:2024-04-09 19:20:53 公開日:2024-04-07
# アウト・オブ・ディストリビューション検出の学習性について

On the Learnability of Out-of-distribution Detection ( http://arxiv.org/abs/2404.04865v1 )

ライセンス: Link先を確認
Zhen Fang, Yixuan Li, Feng Liu, Bo Han, Jie Lu, (参考訳) 教師付き学習は、トレーニングとテストデータが同じ分布から来ているという仮定のもと、分類器を訓練することを目的としている。 上記の仮定を緩和するために、研究者たちはより現実的な設定、すなわちOODデータ(out-of-distribution)検出(out-of-distriion:OOD)を研究した。 OODデータの有効性や多様性のため、有効なOOD検出アルゴリズムには優れた一般化能力が不可欠であり、それに対応する学習理論は依然として未解決の課題である。 OOD検出の一般化を研究するために,本論文では,OOD検出のほぼ正しい(PAC)学習理論について検討する。 まず,OOD検出の学習性に必要条件を見出す。 そして,この条件を用いて,OOD検出の学習可能性に関するいくつかの不合理性定理をいくつかのシナリオで証明する。 不合理性定理はフラストレーション的であるが、これらの不合理性定理のいくつかの条件はいくつかの現実的なシナリオでは成立しないかもしれない。 そこで本研究では,OOD検出の学習性を評価するために必要かつ十分な条件をいくつか提示する。 最後に、OOD理論に基づくOOD検出の代表的作業に対する理論的支援を提供する。

Supervised learning aims to train a classifier under the assumption that training and test data are from the same distribution. To ease the above assumption, researchers have studied a more realistic setting: out-of-distribution (OOD) detection, where test data may come from classes that are unknown during training (i.e., OOD data). Due to the unavailability and diversity of OOD data, good generalization ability is crucial for effective OOD detection algorithms, and corresponding learning theory is still an open problem. To study the generalization of OOD detection, this paper investigates the probably approximately correct (PAC) learning theory of OOD detection that fits the commonly used evaluation metrics in the literature. First, we find a necessary condition for the learnability of OOD detection. Then, using this condition, we prove several impossibility theorems for the learnability of OOD detection under some scenarios. Although the impossibility theorems are frustrating, we find that some conditions of these impossibility theorems may not hold in some practical scenarios. Based on this observation, we next give several necessary and sufficient conditions to characterize the learnability of OOD detection in some practical scenarios. Lastly, we offer theoretical support for representative OOD detection works based on our OOD theory.
翻訳日:2024-04-09 19:20:53 公開日:2024-04-07
# 量子位相空間の非断熱場:エレンフェストから1世紀

Nonadiabatic Field on Quantum Phase Space: A Century after Ehrenfest ( http://arxiv.org/abs/2404.04866v1 )

ライセンス: Link先を確認
Baihua Wu, Xin He, Jian Liu, (参考訳) 非断熱遷移力学は、多くの電子/ホール移動、光活性化、および真空場結合過程の核にある。 Ehrenfest が "Phasenraum" と Ehrenfest の定理を提唱してから約1世紀後、量子力学の一般化された座標-モーメント位相空間の定式化に基づく、概念的に新しい軌跡に基づく非線形場 (NaF) を報告した。 従来のボルン・オッペンハイマーやエレンフェストの軌道は、非断熱結合領域では使用しない。 代わりに、NaFでは、独立軌道の運動方程式は、単一の電子状態の断熱的核力項に加えて、非断熱的核力項を含む。 ガス相および凝縮相系のいくつかのベンチマークテストは、NaFが電子状態のカップリングが消える漸近領域と同様に、状態が常に結合しているプロセスに対して電子力学と核動力学の正確な相関を捉えるための実用的なツールを提供することを示している。

Nonadiabatic transition dynamics lies at the core of many electron/hole transfer, photoactivated, and vacuum field-coupled processes. About a century after Ehrenfest proposed "Phasenraum" and the Ehrenfest theorem, we report a conceptually novel trajectory-based nonadiabatic dynamics approach, nonadiabatic field (NaF), based on a generalized exact coordinate-momentum phase space formulation of quantum mechanics. It does not employ the conventional Born-Oppenheimer or Ehrenfest trajectory in the nonadiabatic coupling region. Instead, in NaF the equations of motion of the independent trajectory involve a nonadiabatic nuclear force term in addition to an adiabatic nuclear force term of a single electronic state. A few benchmark tests for gas phase and condensed phase systems indicate that NaF offers a practical tool to capture the correct correlation of electronic and nuclear dynamics for processes where the states remain coupled all the time as well as for the asymptotic region where the coupling of electronic states vanishes.
翻訳日:2024-04-09 19:11:06 公開日:2024-04-07
# 2状態量子系の厳密な人口動態のための新しい位相空間表現法と三角窓関数との関係

A Novel Class of Phase Space Representations for the Exact Population Dynamics of Two-State Quantum Systems and the Relation to Triangle Window Functions ( http://arxiv.org/abs/2404.04868v1 )

ライセンス: Link先を確認
Xiangsong Cheng, Xin He, Jian Liu, (参考訳) 2状態系の同型性は、古典的な相似性を持たない最も単純な最も単純な量子系の力学的あるいは統計的挙動を理解することにヒューリスティックである。 我々は制約位相空間(J. Chem. Phys. 2016, 145, 204105; 2019, 151, 024105 and J. Phys. Chem. Lett. 2021, 12, 2496-2501]、非共変位相空間関数、時間依存重み関数、時間依存正規化因子を用いて、2状態量子系の正確な人口動態の位相空間表現の新しいクラスを構築する。 制約位相空間上の軌道の運動方程式は、時間依存的なシュリンガー方程式に同型である。 集団力学の積分表現に対する各軌道の寄与は常に正の半定値である。 また、J. Chem で実証的に提案されている三角形窓関数のアプローチも証明する。 Phys 2016年、145, 144108は、新しいクラスの特別な場合と関連付けられ、2状態量子系の正確な人口動態の同型表現をもたらす。

Isomorphism of the two-state system is heuristic in understanding the dynamical or statistical behavior of the simplest yet most quantum system that has no classical counterpart. We use constraint phase space [developed in J. Chem. Phys. 2016, 145, 204105; 2019, 151, 024105 and J. Phys. Chem. Lett. 2021, 12, 2496-2501], non-covariant phase space functions, time-dependent weight functions, and time-dependent normalization factors to construct a novel class of phase space representations of the exact population dynamics of the two-state quantum system. The equations of motion of the trajectory on constraint phase space are isomorphic to the time-dependent Schr\"odinger equation. The contribution of each trajectory to the integral expression for the population dynamics is always positive semi-definite. We also prove that the triangle window function approach, albeit empirically proposed in J. Chem. Phys. 2016, 145, 144108, is related to a special case of the novel class and leads to an isomorphic representation of the exact population dynamics of the two-state quantum system.
翻訳日:2024-04-09 19:11:06 公開日:2024-04-07
# LLMを用いたエンド・ツー・エンド自律運転模倣学習を支援するマルチモーダルトークンのプロンプト

Prompting Multi-Modal Tokens to Enhance End-to-End Autonomous Driving Imitation Learning with LLMs ( http://arxiv.org/abs/2404.04869v1 )

ライセンス: Link先を確認
Yiqun Duan, Qiang Zhang, Renjing Xu, (参考訳) 強化学習の領域における大規模言語モデル(LLM)の利用、特にプランナーとしての利用は、近年の学術文献において大きな注目を集めている。 しかし,既存の研究の大部分は,知覚モデルから得られたアウトプットを言語形式に変換するロボット工学の計画モデルに重点を置いている。 本研究では,マルチモーダルプロンプトトークンに基づく基本的な運転模倣学習とLLMを組み合わせることで,自動運転のためのハイブリッドエンド・ツー・エンド学習フレームワークを提案する。 分離された列車モデルからの知覚結果を純粋に言語入力に変換するのではなく、私たちの斬新さは2つの側面にあります。 1) 学習可能なマルチモーダルトークンへの視覚とLiDARの感覚入力のエンドツーエンド統合により、事前学習された知覚モデルによる記述バイアスを本質的に緩和する。 2) LLMを直接駆動させる代わりに, LLMを駆動モデルが誤りや複雑なシナリオを正すのに役立てるハイブリッド環境について検討する。 実験の結果,提案手法は49.21%の運転スコアと,CARLAによるオフライン評価において91.34%の経路完了率を達成できることが示唆された。 これらのパフォーマンスメトリクスは、最も先進的な駆動モデルに匹敵する。

The utilization of Large Language Models (LLMs) within the realm of reinforcement learning, particularly as planners, has garnered a significant degree of attention in recent scholarly literature. However, a substantial proportion of existing research predominantly focuses on planning models for robotics that transmute the outputs derived from perception models into linguistic forms, thus adopting a `pure-language' strategy. In this research, we propose a hybrid End-to-End learning framework for autonomous driving by combining basic driving imitation learning with LLMs based on multi-modality prompt tokens. Instead of simply converting perception results from the separated train model into pure language input, our novelty lies in two aspects. 1) The end-to-end integration of visual and LiDAR sensory input into learnable multi-modality tokens, thereby intrinsically alleviating description bias by separated pre-trained perception models. 2) Instead of directly letting LLMs drive, this paper explores a hybrid setting of letting LLMs help the driving model correct mistakes and complicated scenarios. The results of our experiments suggest that the proposed methodology can attain driving scores of 49.21%, coupled with an impressive route completion rate of 91.34% in the offline evaluation conducted via CARLA. These performance metrics are comparable to the most advanced driving models.
翻訳日:2024-04-09 19:11:06 公開日:2024-04-07
# 教師なし貯水池計算を用いた信号ノイズ分離

Signal-noise separation using unsupervised reservoir computing ( http://arxiv.org/abs/2404.04870v1 )

ライセンス: Link先を確認
Jaesung Choi, Pilwon Kim, (参考訳) ノイズの特性を知らずに信号からノイズを除去することは難しい課題である。 本稿では,時系列予測に基づく信号雑音分離手法を提案する。 我々はReservoir Computing (RC) を用いて、所定の信号から「予測可能な情報」の最大部分を抽出する。 RCを用いて信号の定性成分を再現し、元の信号と再構成信号との差から雑音分布を推定する。 この方法は機械学習アプローチに基づいており、決定論的信号か雑音分布のどちらかについて事前の知識を必要としない。 雑音の加算率/乗算率を同定し、信号対雑音比(SNR)を間接的に推定する方法を提供する。 この手法は、カオス信号や非ガウス加法/乗法雑音によって劣化する高振動正弦波信号を含む様々な信号と雑音の組み合わせに対してうまく機能する。 分離性能はロバストであり、強い雑音を持つ信号には特に優れており、負のSNRを持つ信号にも顕著である。

Removing noise from a signal without knowing the characteristics of the noise is a challenging task. This paper introduces a signal-noise separation method based on time series prediction. We use Reservoir Computing (RC) to extract the maximum portion of "predictable information" from a given signal. Reproducing the deterministic component of the signal using RC, we estimate the noise distribution from the difference between the original signal and reconstructed one. The method is based on a machine learning approach and requires no prior knowledge of either the deterministic signal or the noise distribution. It provides a way to identify additivity/multiplicativity of noise and to estimate the signal-to-noise ratio (SNR) indirectly. The method works successfully for combinations of various signal and noise, including chaotic signal and highly oscillating sinusoidal signal which are corrupted by non-Gaussian additive/ multiplicative noise. The separation performances are robust and notably outstanding for signals with strong noise, even for those with negative SNR.
翻訳日:2024-04-09 19:11:06 公開日:2024-04-07
# ファジィタスク境界とノイズラベルを用いたデータストリームサンプリング

Data Stream Sampling with Fuzzy Task Boundaries and Noisy Labels ( http://arxiv.org/abs/2404.04871v1 )

ライセンス: Link先を確認
Yu-Hsi Chen, (参考訳) 連続学習の領域では、データストリーム内にノイズラベルが存在することは、信頼性と公平性をモデル化するための顕著な障害である。 我々は,ファジィタスク境界とノイズラベルを特徴とする,関連する文献を概説したデータストリームシナリオに注目した。 この課題に対処するために,ノイズテストデバイアス法 (NTD) と呼ばれる新鮮で直感的なサンプリング手法を導入し,データストリームの進化においてノイズラベルを緩和し,公平かつ堅牢な連続学習アルゴリズムを確立する。 NTDは簡単に実装でき、様々なシナリオで実現可能である。 実験では,2つの合成ノイズデータセット(CIFAR10とCIFAR100)と実世界のノイズデータセット(mini-WebVisionとFood-101N)を含む4つのデータセットをベンチマークした。 その結果,データストリーム中のノイズラベルのあるシナリオにおけるオンライン連続学習におけるNTDの有効性が検証された。 従来の先行手法と比較して、NTDはトレーニングのスピードアップを2回以上向上し、精度を維持または超過する。 さらに、NTDは従来のリード方式に比べてGPUメモリリソースの5分の1未満を利用している。

In the realm of continual learning, the presence of noisy labels within data streams represents a notable obstacle to model reliability and fairness. We focus on the data stream scenario outlined in pertinent literature, characterized by fuzzy task boundaries and noisy labels. To address this challenge, we introduce a novel and intuitive sampling method called Noisy Test Debiasing (NTD) to mitigate noisy labels in evolving data streams and establish a fair and robust continual learning algorithm. NTD is straightforward to implement, making it feasible across various scenarios. Our experiments benchmark four datasets, including two synthetic noise datasets (CIFAR10 and CIFAR100) and real-world noise datasets (mini-WebVision and Food-101N). The results validate the efficacy of NTD for online continual learning in scenarios with noisy labels in data streams. Compared to the previous leading approach, NTD achieves a training speedup enhancement over two times while maintaining or surpassing accuracy levels. Moreover, NTD utilizes less than one-fifth of the GPU memory resources compared to previous leading methods.
翻訳日:2024-04-09 19:11:06 公開日:2024-04-07
# バイナリプログラミングのためのグラフニューラルネットワーク

Graph Neural Networks for Binary Programming ( http://arxiv.org/abs/2404.04874v1 )

ライセンス: Link先を確認
Moshe Eliasof, Eldad Haber, (参考訳) 本稿では,グラフニューラルネットワーク (GNN) とバイナリプログラミング (BP) の関連性を検討した。 BP問題の感度を解析することにより、BP問題の解をヘテロ親和性ノード分類タスクとしてフレーム化することができる。 次に,BPGNN(Binary-Programming GNN)を提案する。BPGNNは,グラフ表現学習技術とBP認識機能を統合し,BP解を効率的に近似するアーキテクチャである。 さらに,大規模BP問題においても,効率的かつトラクタブルなトレーニングデータ取得を可能にする自己教師型データ生成機構を導入する。 BPGNNの様々なBP問題サイズに対する実験的評価は、徹底的な探索とヒューリスティックなアプローチよりも優れた性能を示した。 最後に、GNNによるBP問題の未探索分野におけるオープンな課題について論じる。

This paper investigates a link between Graph Neural Networks (GNNs) and Binary Programming (BP) problems, laying the groundwork for GNNs to approximate solutions for these computationally challenging problems. By analyzing the sensitivity of BP problems, we are able to frame the solution of BP problems as a heterophilic node classification task. We then propose Binary-Programming GNN (BPGNN), an architecture that integrates graph representation learning techniques with BP-aware features to approximate BP solutions efficiently. Additionally, we introduce a self-supervised data generation mechanism, to enable efficient and tractable training data acquisition even for large-scale BP problems. Experimental evaluations of BPGNN across diverse BP problem sizes showcase its superior performance compared to exhaustive search and heuristic approaches. Finally, we discuss open challenges in the under-explored field of BP problems with GNNs.
翻訳日:2024-04-09 19:11:06 公開日:2024-04-07
# NeRF2Points:ストリートビューのラジアンスフィールド最適化による大規模ポイントクラウド生成

NeRF2Points: Large-Scale Point Cloud Generation From Street Views' Radiance Field Optimization ( http://arxiv.org/abs/2404.04875v1 )

ライセンス: Link先を確認
Peng Tu, Xun Zhou, Mingming Wang, Xiaojun Yang, Bo Peng, Ping Chen, Xiu Su, Yawen Huang, Yefeng Zheng, Chang Xu, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、オブジェクトや環境の光リアルなレンダリングのためのパラダイムシフト手法として登場し、目覚ましい忠実さを持つ新しい視点の合成を可能にしている。 これは、フレーム間の大きな重複を特徴とする、オブジェクト中心のカメラポーズの戦略的利用によって達成される。 本稿では,都市景観画像からの点雲の導出という,NeRFの説得力のある代替用途について検討する。 ストリートビューデータの点雲への変換は、相互依存変数のネクサスに起因する複雑さによって引き起こされる。 まず、高品質なポイントクラウド生成ヒンジは、正確なカメラのポーズに基づいていますが、多くのデータセットは、ポーズメタデータの不正確さに悩まされます。 また、NeRFの標準的なアプローチは、広大なオープンな環境での自動運転車のストリートビューデータの特徴に不適合である。 自律走行車用カメラは、しばしば重複が限定され、NeRFベースの点雲におけるぼやけ、アーチファクト、妥協した舗装表現に繋がる。 本稿では,都市域のクラウド合成に適したNeRF2Pointsについて述べる。 本論文は,ポイントクラウドの生成と評価を目的とした,高速で高解像度な20kmの街路データセットによって支援されている。 1) 重み付き反復幾何最適化(WIGO)とStructure from Motion(SfM)の統合により、カメラポーズの精度が向上し、ストリートビューデータの精度が向上する。 2) 層状知覚統合モデリング (LPiM) は, 都市環境における異なる放射場モデリングのために設計されている。

Neural Radiance Fields (NeRF) have emerged as a paradigm-shifting methodology for the photorealistic rendering of objects and environments, enabling the synthesis of novel viewpoints with remarkable fidelity. This is accomplished through the strategic utilization of object-centric camera poses characterized by significant inter-frame overlap. This paper explores a compelling, alternative utility of NeRF: the derivation of point clouds from aggregated urban landscape imagery. The transmutation of street-view data into point clouds is fraught with complexities, attributable to a nexus of interdependent variables. First, high-quality point cloud generation hinges on precise camera poses, yet many datasets suffer from inaccuracies in pose metadata. Also, the standard approach of NeRF is ill-suited for the distinct characteristics of street-view data from autonomous vehicles in vast, open settings. Autonomous vehicle cameras often record with limited overlap, leading to blurring, artifacts, and compromised pavement representation in NeRF-based point clouds. In this paper, we present NeRF2Points, a tailored NeRF variant for urban point cloud synthesis, notable for its high-quality output from RGB inputs alone. Our paper is supported by a bespoke, high-resolution 20-kilometer urban street dataset, designed for point cloud generation and evaluation. NeRF2Points adeptly navigates the inherent challenges of NeRF-based point cloud synthesis through the implementation of the following strategic innovations: (1) Integration of Weighted Iterative Geometric Optimization (WIGO) and Structure from Motion (SfM) for enhanced camera pose accuracy, elevating street-view data precision. (2) Layered Perception and Integrated Modeling (LPiM) is designed for distinct radiance field modeling in urban environments, resulting in coherent point cloud representations.
翻訳日:2024-04-09 19:11:06 公開日:2024-04-07
# HiLo: パラメトリックモデルの高次・低周波情報を用いた細部・ロバストな3次元再構成

HiLo: Detailed and Robust 3D Clothed Human Reconstruction with High-and Low-Frequency Information of Parametric Models ( http://arxiv.org/abs/2404.04876v1 )

ライセンス: Link先を確認
Yifan Yang, Dong Liu, Shuhai Zhang, Zeshuai Deng, Zixiong Huang, Mingkui Tan, (参考訳) 3Dの服を着た人間の再構築には、仮想試着、映画、ゲームなどを含む、衣服の個体の詳細な幾何学が関与する。 実用的で広範な応用を実現するため、近年の進歩として、RGB画像から布を被った人間を生成する方法が提案されている。 しかし、彼らは細部と頑丈なアバターを同時に再建するのに苦労した。 実験により、パラメトリックモデルからの高周波(HF)と低周波(LF)の情報は、それぞれ、幾何学的詳細性を高め、ノイズに対する堅牢性を向上させる可能性があることがわかった。 そこで本研究では,2つのコンポーネントを含む高周波数情報と低周波情報を用いたHiLoを提案する。 1)HF情報を用いて詳細な形状を復元するために,衣服の詳細な3次元形状を向上するプログレッシブなHF符号距離関数を提案する。 モデル収束を阻害する大きな勾配を緩和する進行学習法を解析する。 2) LF情報を用いたパラメトリックモデルの不正確な推定に対する頑健な再構成を実現するために,空間的相互作用暗黙関数を提案する。 この関数はパラメトリックモデルの低分解能ボクセル格子からの補空間情報を効果的に活用する。 実験の結果、HiLoはT Human2.0データセットとCAPEデータセットのチャムファー距離において、最先端の手法を10.43%、9.54%上回ることがわかった。 さらに、HiLoはパラメトリックモデル、挑戦的なポーズ、さまざまな服装スタイルからのノイズに対する堅牢性を示している。

Reconstructing 3D clothed human involves creating a detailed geometry of individuals in clothing, with applications ranging from virtual try-on, movies, to games. To enable practical and widespread applications, recent advances propose to generate a clothed human from an RGB image. However, they struggle to reconstruct detailed and robust avatars simultaneously. We empirically find that the high-frequency (HF) and low-frequency (LF) information from a parametric model has the potential to enhance geometry details and improve robustness to noise, respectively. Based on this, we propose HiLo, namely clothed human reconstruction with high- and low-frequency information, which contains two components. 1) To recover detailed geometry using HF information, we propose a progressive HF Signed Distance Function to enhance the detailed 3D geometry of a clothed human. We analyze that our progressive learning manner alleviates large gradients that hinder model convergence. 2) To achieve robust reconstruction against inaccurate estimation of the parametric model by using LF information, we propose a spatial interaction implicit function. This function effectively exploits the complementary spatial information from a low-resolution voxel grid of the parametric model. Experimental results demonstrate that HiLo outperforms the state-of-the-art methods by 10.43% and 9.54% in terms of Chamfer distance on the Thuman2.0 and CAPE datasets, respectively. Additionally, HiLo demonstrates robustness to noise from the parametric model, challenging poses, and various clothing styles.
翻訳日:2024-04-09 19:11:06 公開日:2024-04-07
# DNA貯蔵シミュレータのバードアイビュー

A Bird-Eye view on DNA Storage Simulators ( http://arxiv.org/abs/2404.04877v1 )

ライセンス: Link先を確認
Sanket Doshi, Mihir Gohel, Manish K. Gupta, (参考訳) ストレージの需要が大きい現在の世界では、DNAベースのストレージソリューションは、その長寿命、低消費電力、高容量のために、かなり有望に聞こえる。 しかし、実生活でデータをDNA形式で保存することは、非常に高価で困難である。 そのため、研究者や開発者は、コストを気にせずに実生活のDNAストレージをシミュレートするソフトウェアを開発しています。 そこで本研究では,異なる領域でDNAストレージシミュレーションを行うソフトウェアについて概説する。 また、合成、シークエンシング、クラスタリング、再構築、GCウィンドウ、K-merウィンドウなどのコアコンセプトや、既存のアルゴリズムの概要についても説明している。 さらに、ドメイン、実装技術、顧客/商業的ユーザビリティに基づく3つの異なるソフトウェアを提示する。

In the current world due to the huge demand for storage, DNA-based storage solution sounds quite promising because of their longevity, low power consumption, and high capacity. However in real life storing data in the form of DNA is quite expensive, and challenging. Therefore researchers and developers develop such kind of software that helps simulate real-life DNA storage without worrying about the cost. This paper aims to review some of the software that performs DNA storage simulations in different domains. The paper also explains the core concepts such as synthesis, sequencing, clustering, reconstruction, GC window, K-mer window, etc and some overview on existing algorithms. Further, we present 3 different softwares on the basis of domain, implementation techniques, and customer/commercial usability.
翻訳日:2024-04-09 19:11:06 公開日:2024-04-07
# CycleINR: Arbitrary-Scale Volume Super-Resolution of Medical DataのためのCycle Implicit Neural Representation

CycleINR: Cycle Implicit Neural Representation for Arbitrary-Scale Volumetric Super-Resolution of Medical Data ( http://arxiv.org/abs/2404.04878v1 )

ライセンス: Link先を確認
Wei Fang, Yuxing Tang, Heng Guo, Mingze Yuan, Tony C. W. Mok, Ke Yan, Jiawen Yao, Xin Chen, Zaiyi Liu, Le Lu, Ling Zhang, Minfeng Xu, (参考訳) CTやMRI画像などの医学的3Dデータでは、一般的な異方性分解能は高いスライス内分解能を持つが、スライス間分解能は低下する。 隣接するスライス間の解像度の低下は、最適な視聴体験を妨げるとともに、ロバストな下流分析アルゴリズムの開発を妨げる。 様々なボリューム超解像アルゴリズムは、これらの課題を克服し、スライス間分解能を高め、総合的な3D医療画像品質を向上させることを目的としている。 しかし、既存のアプローチは固有の課題に直面している。 1) 様々な臨床シナリオの柔軟性に欠ける特定のアップサンプリング要因に適合することが多い。 2) 新たに生成したスライスは, 過度なスムース化, 細部劣化, スライス間不整合の原因となることが多い。 そこで本研究では,3次元医用データボリューム超解像のための新しいインプリシットニューラル表現モデルであるCycleINRを提案する。 学習した暗黙関数の連続性を活用することで、CycleINRモデルは任意のアップサンプリングレートで結果を達成することができ、個別のトレーニングの必要性を排除できる。 さらに,CycleINRにおけるグリッドサンプリングを局所的な注意機構で強化し,サイクル一貫性損失を統合することで過度なスムース化を緩和する。 そこで我々は,Slice-wise Noise Level Inconsistency (SNLI) を新たに導入し,Slice-wise noise Level inconsistency (SNLI) を定量的に評価する。 本手法の有効性は, 社内データセットを用いた画像品質評価と, 肝腫瘍データセットを用いた下流タスク解析によって実証された。

In the realm of medical 3D data, such as CT and MRI images, prevalent anisotropic resolution is characterized by high intra-slice but diminished inter-slice resolution. The lowered resolution between adjacent slices poses challenges, hindering optimal viewing experiences and impeding the development of robust downstream analysis algorithms. Various volumetric super-resolution algorithms aim to surmount these challenges, enhancing inter-slice resolution and overall 3D medical imaging quality. However, existing approaches confront inherent challenges: 1) often tailored to specific upsampling factors, lacking flexibility for diverse clinical scenarios; 2) newly generated slices frequently suffer from over-smoothing, degrading fine details, and leading to inter-slice inconsistency. In response, this study presents CycleINR, a novel enhanced Implicit Neural Representation model for 3D medical data volumetric super-resolution. Leveraging the continuity of the learned implicit function, the CycleINR model can achieve results with arbitrary up-sampling rates, eliminating the need for separate training. Additionally, we enhance the grid sampling in CycleINR with a local attention mechanism and mitigate over-smoothing by integrating cycle-consistent loss. We introduce a new metric, Slice-wise Noise Level Inconsistency (SNLI), to quantitatively assess inter-slice noise level inconsistency. The effectiveness of our approach is demonstrated through image quality evaluations on an in-house dataset and a downstream task analysis on the Medical Segmentation Decathlon liver tumor dataset.
翻訳日:2024-04-09 19:11:06 公開日:2024-04-07
# GauU-Scene V2: Expanse Lidar Image Dataset: Unreliable Geometric Reconstruction using Gaussian Splatting and NeRF

GauU-Scene V2: Expanse Lidar Image Dataset Shows Unreliable Geometric Reconstruction Using Gaussian Splatting and NeRF ( http://arxiv.org/abs/2404.04880v1 )

ライセンス: Link先を確認
Butian Xiong, Nanjun Zheng, Zhen Li, (参考訳) 我々は,GauU-Scene V2データセット上に新たに開発された3D表現アプローチであるGaussian SplattingとNeural Radiance Fieldsを利用する,新しい大規模シーン再構築ベンチマークを導入する。 GauU-Scene V2は6.5平方キロメートル以上をカバーし、LiDARの地上真実と組み合わせた総合的なRGBデータセットを備えている。 このデータセットは6.5km2以上をカバーし、高度な空間分析のための都市環境と学術環境のユニークなブレンドを提供する。 データ収集プロトコルに関する詳細な情報も提供します。 さらに、COLMAPスパースポイントクラウドを詳細なLiDARデータセットと整合させる、簡単に追従できるパイプラインを提案する。 SSIM,LPIPS,PSNRなどの画像ベースメトリクスを用いた様々な視点の詳細な分析を含むU-Sceneの評価は,チャンファー距離などの幾何学的基準を適用した場合の矛盾した結果を示す。 これにより、現在の画像ベース測定行列の信頼性とガウススメッティングにおける幾何抽出法に疑問が持たれる。 データセットも、以下の匿名プロジェクトページで公開しています。

We introduce a novel large-scale scene reconstruction benchmark that utilizes newly developed 3D representation approaches: Gaussian Splatting and Neural Radiance Fields, on our expansive GauU-Scene V2 dataset. GauU-Scene V2 encompasses over 6.5 square kilometers and features a comprehensive RGB dataset coupled with LiDAR ground truth. This dataset offers a unique blend of urban and academic environments for advanced spatial analysis, covering more than 6.5 km2. We also provide detailed supplementary information on data collection protocols. Furthermore, we present an easy-to-follow pipeline to align the COLMAP sparse point cloud with the detailed LiDAR dataset. Our evaluation of U-Scene, which includes a detailed analysis across various novel viewpoints using image-based metrics such as SSIM, LPIPS, and PSNR, shows contradictory results when applying geometric-based metrics, such as Chamfer distance. This leads to doubts about the reliability of current image-based measurement matrices and geometric extraction methods on Gaussian Splatting. We also make the dataset available on the following anonymous project page
翻訳日:2024-04-09 19:11:06 公開日:2024-04-07
# 転送可能なAI生成画像検出のための低ランクエキスパートの混合

Mixture of Low-rank Experts for Transferable AI-Generated Image Detection ( http://arxiv.org/abs/2404.04883v1 )

ライセンス: Link先を確認
Zihan Liu, Hanyi Wang, Yaoyu Kang, Shilin Wang, (参考訳) 生成モデルは、最小限の専門知識で写真リアリスティックなイメージを合成する大きな飛躍を見せており、オンライン情報の真正性に対する懸念を引き起こしている。 本研究の目的は,多様なソースからの画像を識別できる,汎用的なAI生成画像検出器を開発することである。 既存の手法は、限られたサンプル源を供給された場合、目に見えない生成モデルを一般化するのに苦労する。 事前学習された視覚言語モデルのゼロショット転送性に着想を得て、未知の領域を一般化するために、CLIP-ViTの非自明な視覚世界知識と記述的習熟度を活用することを目指す。 本稿では,CLIP-ViTの可能性を完全に活用し,知識の保存と伝達可能な検出能力の拡大を図るために,パラメータ効率の高いファインチューニング手法を提案する。 共有されたLoRAと分離されたLoRAをMoEベースの構造に統合することで、より深いViTブロックのMLP層のみを適応する。 提案手法は, クロスジェネレータの一般化と摂動に対する堅牢性において, 最先端の手法よりも優れていることを示す。 注目すべきことに、我々の最も優れたViT-L/14変種は、そのパラメータの0.08%しかトレーニングを必要とせず、主要なベースラインを +3.64% mAP と +12.72% avg.Acc で越える必要がある。 これはトレーニングデータの0.28%でベースラインを上回ります。 私たちのコードと事前トレーニングされたモデルは、https://github.com/zhliuworks/CLIPMoLE.orgで公開されます。

Generative models have shown a giant leap in synthesizing photo-realistic images with minimal expertise, sparking concerns about the authenticity of online information. This study aims to develop a universal AI-generated image detector capable of identifying images from diverse sources. Existing methods struggle to generalize across unseen generative models when provided with limited sample sources. Inspired by the zero-shot transferability of pre-trained vision-language models, we seek to harness the nontrivial visual-world knowledge and descriptive proficiency of CLIP-ViT to generalize over unknown domains. This paper presents a novel parameter-efficient fine-tuning approach, mixture of low-rank experts, to fully exploit CLIP-ViT's potential while preserving knowledge and expanding capacity for transferable detection. We adapt only the MLP layers of deeper ViT blocks via an integration of shared and separate LoRAs within an MoE-based structure. Extensive experiments on public benchmarks show that our method achieves superiority over state-of-the-art approaches in cross-generator generalization and robustness to perturbations. Remarkably, our best-performing ViT-L/14 variant requires training only 0.08% of its parameters to surpass the leading baseline by +3.64% mAP and +12.72% avg.Acc across unseen diffusion and autoregressive models. This even outperforms the baseline with just 0.28% of the training data. Our code and pre-trained models will be available at https://github.com/zhliuworks/CLIPMoLE.
翻訳日:2024-04-09 19:11:06 公開日:2024-04-07
# LRNet:ローカライゼーション・then-refinementによる高分解能リモートセンシング画像の変化検出

LRNet: Change detection of high-resolution remote sensing imagery via strategy of localization-then-refinement ( http://arxiv.org/abs/2404.04884v1 )

ライセンス: Link先を確認
Huan Zhong, Chen Wu, Ziqi Xiao, (参考訳) リモートセンシングの分野での研究ホットスポットである変化検出は、継続的な開発と進歩を目撃している。 しかし、変化領域と背景の間の周辺要素の複雑さのため、境界詳細の識別は依然として重大なボトルネックとなっている。 大きな変更領域の境界を識別すると、ミスアライメントが発生し、小さな変更対象に対して接続境界が発生する。 以上の課題に対処するため,本論文では,ローカライゼーション・then-refinement戦略に基づく新しいネットワーク,すなわちLRNetを提案する。 LRNetは、ローカライゼーションとリファインメントの2つのステージで構成されている。 ローカライゼーション段階において、3分岐エンコーダは、各変更領域の位置のインタラクティブなローカライゼーションのための原画像特徴とその差分特徴を同時に抽出する。 特徴抽出時の情報損失を最小限に抑えるため,学習可能な最適プール (LOP) を提案し,広く使用されている最大プールを置き換えた。 さらに、このプロセスはトレーニング可能であり、ネットワーク全体の最適化に寄与する。 異なる枝からの特徴を効果的に相互作用し、様々なサイズの変化領域を正確に特定するために、変更アライメントアライメントアライメント(C2A)と階層的変更アライメントアライメントモジュール(HCA)を提案する。 精製段階では、エッジエリアアライメントモジュール(E2A)を介して、変更領域と変更エッジを制約することにより、ローカライズステージからのローカライズ結果を補正する。 その後、デコーダは、ローカライゼーションフェーズにおいてC2Aにより強化された差分特徴と組み合わせて、異なるサイズの変更領域を洗練し、最終的に変更領域の正確な境界識別を実現する。 提案したLRNetは、総合的な評価指標で13の最先端手法を上回り、LIVIR-CDとWHU-CDデータセット上で最も正確な境界識別結果を提供する。

Change detection, as a research hotspot in the field of remote sensing, has witnessed continuous development and progress. However, the discrimination of boundary details remains a significant bottleneck due to the complexity of surrounding elements between change areas and backgrounds. Discriminating the boundaries of large change areas results in misalignment, while connecting boundaries occurs for small change targets. To address the above issues, a novel network based on the localization-then-refinement strategy is proposed in this paper, namely LRNet. LRNet consists of two stages: localization and refinement. In the localization stage, a three-branch encoder simultaneously extracts original image features and their differential features for interactive localization of the position of each change area. To minimize information loss during feature extraction, learnable optimal pooling (LOP) is proposed to replace the widely used max-pooling. Additionally, this process is trainable and contributes to the overall optimization of the network. To effectively interact features from different branches and accurately locate change areas of various sizes, change alignment attention (C2A) and hierarchical change alignment module (HCA) are proposed. In the refinement stage, the localization results from the localization stage are corrected by constraining the change areas and change edges through the edge-area alignment module (E2A). Subsequently, the decoder, combined with the difference features strengthened by C2A in the localization phase, refines change areas of different sizes, ultimately achieving accurate boundary discrimination of change areas. The proposed LRNet outperforms 13 other state-of-the-art methods in terms of comprehensive evaluation metrics and provides the most precise boundary discrimination results on the LEVIR-CD and WHU-CD datasets.
翻訳日:2024-04-09 19:11:06 公開日:2024-04-07
# TimeGPT in Load Forecasting: A Large Time Series Model Perspective

TimeGPT in Load Forecasting: A Large Time Series Model Perspective ( http://arxiv.org/abs/2404.04885v1 )

ライセンス: Link先を確認
Wenlong Liao, Fernando Porte-Agel, Jiannong Fang, Christian Rehtanz, Shouxiang Wang, Dechang Yang, Zhe Yang, (参考訳) 機械学習モデルは、負荷予測に大きな進歩を遂げているが、過去の負荷データが不足している場合に、その予測精度は制限されている。 本稿では,コンピュータビジョンと自然言語処理における大規模言語モデル(LLM)の卓越した性能に着想を得て,負荷予測における大規模時系列モデルの可能性について検討する。 具体的には、1000億のデータポイント(例えば、金融、交通、銀行、Webトラフィック、天気、エネルギー、医療など)からなる大規模で多様な時系列データセットに基づいてトレーニングされた時系列生成事前訓練型トランスフォーマー(TimeGPT)として、大規模な時系列モデルを構築している。 そして、少ない履歴負荷データを用いてTimeGPTを微調整し、負荷予測に関連するデータ分布と特性に適応する。 シミュレーションの結果,TimeGPTはトレーニングサンプルが少ない実データセット,特にショートルックアヘッド時間において,負荷予測のベンチマーク(一般的な機械学習モデルや統計モデルなど)よりも優れていた。 しかし,TimeGPTは負荷データとトレーニングデータとの分布差の影響を受けやすいため,負荷予測のベンチマークよりも常に優れているという保証は得られない。 実践的なアプリケーションでは、履歴データをトレーニングセットと検証セットに分割し、検証セットの損失を使用して、TimeGPTが特定のデータセットに最適な選択かどうかを判断する。

Machine learning models have made significant progress in load forecasting, but their forecast accuracy is limited in cases where historical load data is scarce. Inspired by the outstanding performance of large language models (LLMs) in computer vision and natural language processing, this paper aims to discuss the potential of large time series models in load forecasting with scarce historical data. Specifically, the large time series model is constructed as a time series generative pre-trained transformer (TimeGPT), which is trained on massive and diverse time series datasets consisting of 100 billion data points (e.g., finance, transportation, banking, web traffic, weather, energy, healthcare, etc.). Then, the scarce historical load data is used to fine-tune the TimeGPT, which helps it to adapt to the data distribution and characteristics associated with load forecasting. Simulation results show that TimeGPT outperforms the benchmarks (e.g., popular machine learning models and statistical models) for load forecasting on several real datasets with scarce training samples, particularly for short look-ahead times. However, it cannot be guaranteed that TimeGPT is always superior to benchmarks for load forecasting with scarce data, since the performance of TimeGPT may be affected by the distribution differences between the load data and the training data. In practical applications, we can divide the historical data into a training set and a validation set, and then use the validation set loss to decide whether TimeGPT is the best choice for a specific dataset.
翻訳日:2024-04-09 19:11:06 公開日:2024-04-07
# PagPassGPT: 生成事前学習型トランスによるパターンガイドパスワード案内

PagPassGPT: Pattern Guided Password Guessing via Generative Pretrained Transformer ( http://arxiv.org/abs/2404.04886v1 )

ライセンス: Link先を確認
Xingyu Su, Xiaojie Zhu, Yang Li, Yong Li, Chi Chen, Paulo Esteves-Veríssimo, (参考訳) ディープラーニングベースのパスワード推測モデルの増加の中で、高品質なパスワードの生成と重複パスワードの削減という課題が続いている。 これらの課題に対処するため,GPT(Generative Pretrained Transformer)上に構築されたパスワード推測モデルPagPassGPTを提案する。 パターン構造情報を背景知識として組み込むことでパターンガイドによる推測を行うことができ、それによってヒット率が大幅に向上する。 さらに,D&C-GENを用いて生成したパスワードの繰り返し率を削減する手法を提案する。 パスワードを推測する主なタスクは、重複しないサブタスクに再帰的に分割される。 各サブタスクは、親タスクから知識を継承し、後続するトークンを予測する。 提案手法は、最先端モデルと比較して、12%以上のパスワードを正しく推測し、25%少ない重複を生成する能力を示す。

Amidst the surge in deep learning-based password guessing models, challenges of generating high-quality passwords and reducing duplicate passwords persist. To address these challenges, we present PagPassGPT, a password guessing model constructed on Generative Pretrained Transformer (GPT). It can perform pattern guided guessing by incorporating pattern structure information as background knowledge, resulting in a significant increase in the hit rate. Furthermore, we propose D&C-GEN to reduce the repeat rate of generated passwords, which adopts the concept of a divide-and-conquer approach. The primary task of guessing passwords is recursively divided into non-overlapping subtasks. Each subtask inherits the knowledge from the parent task and predicts succeeding tokens. In comparison to the state-of-the-art model, our proposed scheme exhibits the capability to correctly guess 12% more passwords while producing 25% fewer duplicates.
翻訳日:2024-04-09 19:11:06 公開日:2024-04-07
# 低画質医用画像における疾患診断のための多段階コントラスト学習法

A Clinical-oriented Multi-level Contrastive Learning Method for Disease Diagnosis in Low-quality Medical Images ( http://arxiv.org/abs/2404.04887v1 )

ライセンス: Link先を確認
Qingshan Hou, Shuai Cheng, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane, Yih Chung Tham, (参考訳) 表現学習は、潜在空間内の特徴を解明し、深いモデルを理解するための導管を提供する。 しかし, 医用画像における病変分布のランダム性と低品質因子の複雑さは, 重要な病変の特徴を抽出するモデルにとって大きな課題となっている。 コントラスト学習(CL)によって誘導される疾患診断法は,病変の特徴表現において有意な優位性を示した。 それでも、CLの有効性は正と負のサンプルペアの品質に大きく依存している。 本研究は,病変の特徴を抽出し,病変と低品質因子を識別する能力を高めることを目的とした,低品質な医用画像からより正確な疾患診断を可能にする,臨床指向型多段階CLフレームワークを提案する。 具体的には,医用画像のさまざまなレベルと品質から情報を統合することで,病変の特徴の包括的認識能力を高めるために,まずマルチレベル正対と負対を構築した。 さらに, 学習した病変埋め込みの品質を向上させるために, セルフペースト学習に基づく動的ハードサンプルマイニング手法を提案する。 提案したCLフレームワークは、EyeQとChest X-rayの2つの公開医用画像データセットで検証され、他の最先端の疾患診断方法と比較して優れた性能を示す。

Representation learning offers a conduit to elucidate distinctive features within the latent space and interpret the deep models. However, the randomness of lesion distribution and the complexity of low-quality factors in medical images pose great challenges for models to extract key lesion features. Disease diagnosis methods guided by contrastive learning (CL) have shown significant advantages in lesion feature representation. Nevertheless, the effectiveness of CL is highly dependent on the quality of the positive and negative sample pairs. In this work, we propose a clinical-oriented multi-level CL framework that aims to enhance the model's capacity to extract lesion features and discriminate between lesion and low-quality factors, thereby enabling more accurate disease diagnosis from low-quality medical images. Specifically, we first construct multi-level positive and negative pairs to enhance the model's comprehensive recognition capability of lesion features by integrating information from different levels and qualities of medical images. Moreover, to improve the quality of the learned lesion embeddings, we introduce a dynamic hard sample mining method based on self-paced learning. The proposed CL framework is validated on two public medical image datasets, EyeQ and Chest X-ray, demonstrating superior performance compared to other state-of-the-art disease diagnostic methods.
翻訳日:2024-04-09 19:01:22 公開日:2024-04-07
# オンライングループ討論におけるエソスとパソス:ソーシャルメディアにおける偏極問題のためのコーパス

Ethos and Pathos in Online Group Discussions: Corpora for Polarisation Issues in Social Media ( http://arxiv.org/abs/2404.04889v1 )

ライセンス: Link先を確認
Ewelina Gajewska, Katarzyna Budzynska, Barbara Konat, Marcin Koszowy, Konrad Kiljan, Maciej Uberna, He Zhang, (参考訳) 社会の分極化が進み、科学界やニュースメディアの注目を集め、この現象に特別な問題を注いだ。 同時に、社会的相互作用のデジタル化は、すべての人間の相互作用の重要な特徴である信頼の確立に関する社会科学の概念や、利用可能な大量のデータを処理するための新しい計算ツールを改訂する必要がある。 既存の手法は問題を完全に解決するには不十分に思えるので,オンライン上で議論を偏在させる際に個人が採用する修辞的戦略を調査することによって,この問題にアプローチすることを提案する。 そこで我々は,アリストテレス・レトリックにおける2つの説得様式である,エトスとパスへのアピールのマニュアルアノテーションを付加したマルチトピック・マルチプラットフォームコーパスを開発した。 オンラインコミュニケーション戦略の研究を大規模に進めるために、言語モデルをトレーニングするために使用できる。 コーパスでは, 議論やメディアプラットフォームを対象とし, 偏光交換の繰り返しパターンを探索し, 偏光に繋がる言語構造の定量的, 質的な分析を行う。

Growing polarisation in society caught the attention of the scientific community as well as news media, which devote special issues to this phenomenon. At the same time, digitalisation of social interactions requires to revise concepts from social science regarding establishment of trust, which is a key feature of all human interactions, and group polarisation, as well as new computational tools to process large quantities of available data. Existing methods seem insufficient to tackle the problem fully, thus, we propose to approach the problem by investigating rhetorical strategies employed by individuals in polarising discussions online. To this end, we develop multi-topic and multi-platform corpora with manual annotation of appeals to ethos and pathos, two modes of persuasion in Aristotelian rhetoric. It can be employed for training language models to advance the study of communication strategies online on a large scale. With the use of computational methods, our corpora allows an investigation of recurring patterns in polarising exchanges across topics of discussion and media platforms, and conduct both quantitative and qualitative analyses of language structures leading to and engaged in polarisation.
翻訳日:2024-04-09 19:01:21 公開日:2024-04-07
# スパース信号からのシーン認識人間の動き推定のための統一拡散フレームワーク

A Unified Diffusion Framework for Scene-aware Human Motion Estimation from Sparse Signals ( http://arxiv.org/abs/2404.04890v1 )

ライセンス: Link先を確認
Jiangnan Tang, Jingya Wang, Kaiyang Ji, Lan Xu, Jingyi Yu, Ye Shi, (参考訳) 3Dシーンにおけるヘッドマウントディスプレイとハンドコントローラーからのスパーストラッキング信号を通じて、フルボディの人間の動きを推定することは、AR/VRの応用にとって不可欠である。 このタスクの最大の課題の1つは、スパース観測から密度の高いフルボディの動きへの1対1のマッピングであり、これは固有の曖昧さをもたらした。 この曖昧な問題を解決するために,シーンによって提供されるリッチな文脈情報を組み合わせて,スパース観測から全身運動追跡に役立てる新しい枠組みを導入する。 スパース追跡信号と3次元シーンが与えられた可視的な人間の動きを推定するために,条件付きdif\underline{Fusion}モデルで,sparse \underline{S}ceneとsparse \underline{S}ignalsを融合したフレームワークである$\text{S}^2$Fusionを開発した。 $\text{S}^2$Fusion は、まず周期的オートエンコーダを介してスパース信号に含まれる時空間関係を抽出し、次に追加入力として埋め込む時間調整機能を生成する。 その後、事前訓練された前者から初期雑音運動を描画することにより、$\text{S}^2$Fusionは条件拡散を利用してシーン幾何学とスパース追跡信号を融合し、フルボディのシーン認識動作を生成する。 さらに、$\text{S}^2$Fusionのサンプリング手順は、特別に設計されたシーン・ペネレーション・ロスと位相マッチング・ロスによって導かれる。 我々の$\text{S}^2$Fusionは推定品質と滑らかさの点で最先端であることを示した。

Estimating full-body human motion via sparse tracking signals from head-mounted displays and hand controllers in 3D scenes is crucial to applications in AR/VR. One of the biggest challenges to this task is the one-to-many mapping from sparse observations to dense full-body motions, which endowed inherent ambiguities. To help resolve this ambiguous problem, we introduce a new framework to combine rich contextual information provided by scenes to benefit full-body motion tracking from sparse observations. To estimate plausible human motions given sparse tracking signals and 3D scenes, we develop $\text{S}^2$Fusion, a unified framework fusing \underline{S}cene and sparse \underline{S}ignals with a conditional dif\underline{Fusion} model. $\text{S}^2$Fusion first extracts the spatial-temporal relations residing in the sparse signals via a periodic autoencoder, and then produces time-alignment feature embedding as additional inputs. Subsequently, by drawing initial noisy motion from a pre-trained prior, $\text{S}^2$Fusion utilizes conditional diffusion to fuse scene geometry and sparse tracking signals to generate full-body scene-aware motions. The sampling procedure of $\text{S}^2$Fusion is further guided by a specially designed scene-penetration loss and phase-matching loss, which effectively regularizes the motion of the lower body even in the absence of any tracking signals, making the generated motion much more plausible and coherent. Extensive experimental results have demonstrated that our $\text{S}^2$Fusion outperforms the state-of-the-art in terms of estimation quality and smoothness.
翻訳日:2024-04-09 19:01:21 公開日:2024-04-07
# DL-EWF:体型分類のためのグラウンド・セグメンション・アニーシング・セグメンテーションによる女性ファッションの深層学習

DL-EWF: Deep Learning Empowering Women's Fashion with Grounded-Segment-Anything Segmentation for Body Shape Classification ( http://arxiv.org/abs/2404.04891v1 )

ライセンス: Link先を確認
Fatemeh Asghari, Mohammad Reza Soheili, Faezeh Gholamrezaie, (参考訳) グローバルファッション産業は、世界経済において重要な役割を担い、革新的なソリューションを開発するためには、業界内の根本的な問題に対処することが不可欠である。 ファッション業界で最も厳しい課題の1つは、体型と購入した個人の衣服のミスマッチである。 この問題は、非理想的な体型を持つ個人の間で特に顕著であり、直面した課題をさらに悪化させる。 身体形状の個人間変動を考慮することは、消費者に広く受け入れられる衣服の設計・製造に不可欠である。 人体形状を決定する従来の方法は、その正確性、高いコスト、時間のかかる性質のために制限されている。 デジタルイメージングとディープニューラルネットワーク(DNN)を利用した新しいアプローチが導入された。 本研究では、Style4BodyShapeデータセットを使用して、体形を5つのカテゴリ(矩形、三角形、反転三角形、Hourglass、Apple)に分類する。 本稿では、人物の身体形状のセグメンテーションを画像から抽出し、周囲や背景を無視する。 次に、セグメンテーション結果の分類には、ResNet18、ResNet34、ResNet50、VGG16、VGG19、Inception v3などの事前訓練済みモデルを使用する。 これらの事前訓練モデルのうち、インセプションV3モデルは、他のモデルと比較してf1スコアの評価基準と精度に関して優れた性能を示す。

The global fashion industry plays a pivotal role in the global economy, and addressing fundamental issues within the industry is crucial for developing innovative solutions. One of the most pressing challenges in the fashion industry is the mismatch between body shapes and the garments of individuals they purchase. This issue is particularly prevalent among individuals with non-ideal body shapes, exacerbating the challenges faced. Considering inter-individual variability in body shapes is essential for designing and producing garments that are widely accepted by consumers. Traditional methods for determining human body shape are limited due to their low accuracy, high costs, and time-consuming nature. New approaches, utilizing digital imaging and deep neural networks (DNN), have been introduced to identify human body shape. In this study, the Style4BodyShape dataset is used for classifying body shapes into five categories: Rectangle, Triangle, Inverted Triangle, Hourglass, and Apple. In this paper, the body shape segmentation of a person is extracted from the image, disregarding the surroundings and background. Then, Various pre-trained models, such as ResNet18, ResNet34, ResNet50, VGG16, VGG19, and Inception v3, are used to classify the segmentation results. Among these pre-trained models, the Inception V3 model demonstrates superior performance regarding f1-score evaluation metric and accuracy compared to the other models.
翻訳日:2024-04-09 19:01:21 公開日:2024-04-07
# 弱分離は強い分離である。

Elementary fractal geometry. 5. Weak separation is strong separation ( http://arxiv.org/abs/2404.04892v1 )

ライセンス: Link先を確認
Christoph Bandt, Michael F. Barnsley, (参考訳) 自己同型集合に対しては、開集合条件とゼルナーが導入した弱分離条件の2つの重要な分離性質があるが、これはNgai と Wang の形式的に強い有限型性質に置き換わることができる。 有限型自己相似集合は開集合条件に従うグラフ指向の構成として表せることを示す。 この証明は、コンピュータ実験でよく機能する組合せアルゴリズムに基づいている。

For self-similar sets, there are two important separation properties: the open set condition and the weak separation condition introduced by Zerner, which may be replaced by the formally stronger finite type property of Ngai and Wang. We show that any finite type self-similar set can be represented as a graph-directed construction obeying the open set condition. The proof is based on a combinatorial algorithm which performed well in computer experiments.
翻訳日:2024-04-09 19:01:21 公開日:2024-04-07
# GPU加速のためのテンソル化アントコロニー最適化

Tensorized Ant Colony Optimization for GPU Acceleration ( http://arxiv.org/abs/2404.04895v1 )

ライセンス: Link先を確認
Luming Yang, Tao Jiang, Ran Cheng, (参考訳) Ant Colony Optimization (ACO)は、トラベルセールスマン問題の解決に有効であることで有名だが、CPUベースの環境、特に大規模インスタンスでは計算上の課題に直面している。 これに対し、GPUアクセラレーションの進歩を活用するために、Tensorized Ant Colony Optimization (TensorACO)を導入する。 中心となるものとして、TensorACO は ant 系と ant 経路を完全にテンソル形式に変換する。 アリシステムのテンソル化のために,確率遷移行列を計算して計算オーバーヘッドを削減する前処理法を提案する。 アントパスのテンソル化において,逐次経路更新の機構を並列行列演算に置き換えることで,フェロモン行列の更新を高速化するインデックスマッピング手法を提案する。 さらに,GPU上でのACOの選択機構の並列化という課題を克服するために,Adaptive Independent Roulette (AdaIR) 手法を導入する。 総合的な実験は、標準的なACOよりも1921$\times$スピードアップを達成するTensorACOの優れた性能を示す。 さらに、AdaIR法は、テンソルACOの収束速度を80%、溶液品質を2%改善する。 ソースコードはhttps://github.com/EMI-Group/tensoraco.comで入手できる。

Ant Colony Optimization (ACO) is renowned for its effectiveness in solving Traveling Salesman Problems, yet it faces computational challenges in CPU-based environments, particularly with large-scale instances. In response, we introduce a Tensorized Ant Colony Optimization (TensorACO) to utilize the advancements of GPU acceleration. As the core, TensorACO fully transforms ant system and ant path into tensor forms, a process we refer to as tensorization. For the tensorization of ant system, we propose a preprocessing method to reduce the computational overhead by calculating the probability transition matrix. In the tensorization of ant path, we propose an index mapping method to accelerate the update of pheromone matrix by replacing the mechanism of sequential path update with parallel matrix operations. Additionally, we introduce an Adaptive Independent Roulette (AdaIR) method to overcome the challenges of parallelizing ACO's selection mechanism on GPUs. Comprehensive experiments demonstrate the superior performance of TensorACO achieving up to 1921$\times$ speedup over standard ACO. Moreover, the AdaIR method further improves TensorACO's convergence speed by 80% and solution quality by 2%. Source codes are available at https://github.com/EMI-Group/tensoraco.
翻訳日:2024-04-09 19:01:21 公開日:2024-04-07
# Radial Networks: 高性能大言語モデルのための動的レイヤルーティング

Radial Networks: Dynamic Layer Routing for High-Performance Large Language Models ( http://arxiv.org/abs/2404.04900v1 )

ライセンス: Link先を確認
Jordan Dotzel, Yash Akhauri, Ahmed S. AbouElhamayed, Carly Jiang, Mohamed Abdelfattah, Zhiru Zhang, (参考訳) 大規模言語モデル(LLM)は、しばしば厳しいメモリ、レイテンシ、電力需要に悩まされる。 これらの要求を満たすため、インプット・バイ・インプット・ベースでの計算を削減できる様々なダイナミック・スパシティーが提案されている。 これらの手法は、トレーニングデータの指数的な増加とともに着実に成長している個々の入力間のばらつきを利用して、静的な手法よりも改善されている。 しかし、現在の数百のレイヤを持つモダンモデルにおける深度の増加は、動的レイヤのスパーシリティの機会を開放し、レイヤ全体の計算を省略している。 本研究では,残差接続をプロファイリングし,モデル深さと層間隔の関係を確立することによって,層間隔の実用性を検討する。 例えば、OPT-66Bモデルの残留ブロックは、その出力に対して5%の中央値の寄与がある。 次に、この動的疎度を利用して、トレーニングされたルータモジュールによってガイドされる層間のトークンレベルのルーティングを実行するRadar Networksを提案する。 これらのネットワークは、シーケンシャルネットワークからの訓練後の蒸留や、ルータと層重みを共に学習するためのスクラッチから訓練に使用することができる。 ネットワークのダイナミックな深さからレイヤ数を分離することで、より大きなモデルサイズへのスケーリングを可能にし、それらの設計はレイヤの再利用を可能にします。 トークンごとに計算トークンを変更すれば、シーケンス全体を生成するのに必要なリソース全体の削減が可能になる。 全体として、これは大きな言語モデルの計算コストとサービスコストを大幅に削減する、より大きなキャパシティネットワークにつながる。

Large language models (LLMs) often struggle with strict memory, latency, and power demands. To meet these demands, various forms of dynamic sparsity have been proposed that reduce compute on an input-by-input basis. These methods improve over static methods by exploiting the variance across individual inputs, which has steadily grown with the exponential increase in training data. Yet, the increasing depth within modern models, currently with hundreds of layers, has opened opportunities for dynamic layer sparsity, which skips the computation for entire layers. In this work, we explore the practicality of layer sparsity by profiling residual connections and establish the relationship between model depth and layer sparsity. For example, the residual blocks in the OPT-66B model have a median contribution of 5% to its output. We then take advantage of this dynamic sparsity and propose Radial Networks, which perform token-level routing between layers guided by a trained router module. These networks can be used in a post-training distillation from sequential networks or trained from scratch to co-learn the router and layer weights. They enable scaling to larger model sizes by decoupling the number of layers from the dynamic depth of the network, and their design allows for layer reuse. By varying the compute token by token, they reduce the overall resources needed for generating entire sequences. Overall, this leads to larger capacity networks with significantly lower compute and serving costs for large language models.
翻訳日:2024-04-09 19:01:21 公開日:2024-04-07
# AI2Apps: LLMベースのAIエージェントアプリケーションを構築するためのビジュアルIDE

AI2Apps: A Visual IDE for Building LLM-based AI Agent Applications ( http://arxiv.org/abs/2404.04902v1 )

ライセンス: Link先を確認
Xin Pang, Zhucong Li, Jiaxiang Chen, Yuan Cheng, Yinghui Xu, Yuan Qi, (参考訳) フルサイクル機能を備えたビジュアル統合開発環境(Visual IDE)であるAI2Appsを導入し、デプロイ可能なLLMベースのAIエージェントアプリケーションの構築を加速する。 このVisual IDEは、開発ツールの一体性とコンポーネントの視覚性の両方を優先し、スムーズで効率的なビルドエクスペリエンスを確保する。一方、AI2Appsは、プロトタイピングキャンバスやAI支援コードエディタから、エージェントデバッガ、管理システム、デプロイメントツールまで、すべてWebベースのグラフィカルユーザインターフェース内に含まれる包括的な開発ツールキットを統合する。 一方、AI2Appsは再利用可能なフロントエンドとバックエンドのコードを直感的なドラッグアンドドロップコンポーネントとして視覚化する。 さらに、AI2Apps Extension (AAE)という名前のプラグインシステムは、Extensibility用に設計されており、20のコンポーネントを持つ新しいプラグインが、Webエージェントがヒューマンライクなブラウジング動作を模倣する方法を示している。 ケーススタディでは,特定の高度なマルチモーダルエージェントを約90%,APIコールでデバッグする場合,AI2Appsがトークン消費とAPIコールを約80%削減するなど,大幅な効率向上が示されている。 オンラインデモ、オープンソースコード、スクリーンキャストビデオを含むAI2Appsが一般公開された。

We introduce AI2Apps, a Visual Integrated Development Environment (Visual IDE) with full-cycle capabilities that accelerates developers to build deployable LLM-based AI agent Applications. This Visual IDE prioritizes both the Integrity of its development tools and the Visuality of its components, ensuring a smooth and efficient building experience.On one hand, AI2Apps integrates a comprehensive development toolkit ranging from a prototyping canvas and AI-assisted code editor to agent debugger, management system, and deployment tools all within a web-based graphical user interface. On the other hand, AI2Apps visualizes reusable front-end and back-end code as intuitive drag-and-drop components. Furthermore, a plugin system named AI2Apps Extension (AAE) is designed for Extensibility, showcasing how a new plugin with 20 components enables web agent to mimic human-like browsing behavior. Our case study demonstrates substantial efficiency improvements, with AI2Apps reducing token consumption and API calls when debugging a specific sophisticated multimodal agent by approximately 90% and 80%, respectively. The AI2Apps, including an online demo, open-source code, and a screencast video, is now publicly accessible.
翻訳日:2024-04-09 19:01:21 公開日:2024-04-07
# ハファザード入力条件下でのオンライン学習 : 総合的レビューと分析

Online Learning under Haphazard Input Conditions: A Comprehensive Review and Analysis ( http://arxiv.org/abs/2404.04903v1 )

ライセンス: Link先を確認
Rohit Agarwal, Arijit Das, Alexander Horsch, Krishna Agarwal, Dilip K. Prasad, (参考訳) オンライン学習の領域は、現実の応用における普及により、多面的な拡張を経験してきた。 それでも、この進行はストリーミングデータの入力特徴空間が一定であるという仮定の下で機能する。 本稿では,ハファザード入力の文脈におけるオンライン学習の話題に対処し,その前提を明示する。 我々は,ハファザード入力のモデル化に有効である方法論を議論し,分類し,評価し,比較し,対応するコード実装とその炭素フットプリントを提供する。 さらに,ハファザード入力の分野に関するデータセットを分類し,不均衡を示すデータセットに特化して設計された評価指標を導入する。 それぞれの方法論のコードはhttps://github.com/Rohit102497/HaphazardInputsReviewで確認できる。

The domain of online learning has experienced multifaceted expansion owing to its prevalence in real-life applications. Nonetheless, this progression operates under the assumption that the input feature space of the streaming data remains constant. In this survey paper, we address the topic of online learning in the context of haphazard inputs, explicitly foregoing such an assumption. We discuss, classify, evaluate, and compare the methodologies that are adept at modeling haphazard inputs, additionally providing the corresponding code implementations and their carbon footprint. Moreover, we classify the datasets related to the field of haphazard inputs and introduce evaluation metrics specifically designed for datasets exhibiting imbalance. The code of each methodology can be found at https://github.com/Rohit102497/HaphazardInputsReview
翻訳日:2024-04-09 19:01:21 公開日:2024-04-07
# クロスドメインオーディオディープフェイク検出:データセットと解析

Cross-Domain Audio Deepfake Detection: Dataset and Analysis ( http://arxiv.org/abs/2404.04904v1 )

ライセンス: Link先を確認
Yuang Li, Min Zhang, Mengxin Ren, Miaomiao Ma, Daimeng Wei, Hao Yang, (参考訳) オーディオディープフェイク検出(ADD)は、個人の権利やプライバシーを侵害する合成音声の誤用を防ぐために不可欠である。 最近のゼロショット音声合成(TTS)モデルでは、単一の発話で音声をクローンできるため、高いリスクが生じる。 しかし、既存のADDデータセットは時代遅れであり、検出モデルの最適部分一般化に繋がる。 本稿では、5つの高度なゼロショットTSモデルにより生成される300時間以上の音声データからなる新しいクロスドメインADDデータセットを構築する。 実世界のシナリオをシミュレートするために、異なるデータセットから様々な攻撃方法と音声プロンプトを用いる。 実験により、新たな攻撃増強訓練により、Wav2Vec2-largeモデルとWhisper-mediumモデルはそれぞれ4.1\%と6.5\%の誤差率を得ることが示された。 さらに、ターゲットドメインデータのわずか1分で微調整することで、我々のモデルで卓越した数発のADD能力を実証する。 それでも、ニューラルコーデック圧縮機は検出精度に大きな影響を与え、さらなる研究が必要である。

Audio deepfake detection (ADD) is essential for preventing the misuse of synthetic voices that may infringe on personal rights and privacy. Recent zero-shot text-to-speech (TTS) models pose higher risks as they can clone voices with a single utterance. However, the existing ADD datasets are outdated, leading to suboptimal generalization of detection models. In this paper, we construct a new cross-domain ADD dataset comprising over 300 hours of speech data that is generated by five advanced zero-shot TTS models. To simulate real-world scenarios, we employ diverse attack methods and audio prompts from different datasets. Experiments show that, through novel attack-augmented training, the Wav2Vec2-large and Whisper-medium models achieve equal error rates of 4.1\% and 6.5\% respectively. Additionally, we demonstrate our models' outstanding few-shot ADD ability by fine-tuning with just one minute of target-domain data. Nonetheless, neural codec compressors greatly affect the detection accuracy, necessitating further research.
翻訳日:2024-04-09 19:01:21 公開日:2024-04-07
# 特別な欠落メカニズムによる欠落データ処理のレビュー

Review for Handling Missing Data with special missing mechanism ( http://arxiv.org/abs/2404.04905v1 )

ライセンス: Link先を確認
Youran Zhou, Sunil Aryal, Mohamed Reda Bouadjenek, (参考訳) データ不足はデータサイエンスにおいて大きな課題となり、意思決定プロセスや結果に影響を与えます。 現実のデータを扱う場合、特に表形式のデータでは、何が欠落しているか、どのように発生し、なぜ適切に扱うことが重要なのかを理解することが最重要である。 Missing Completely At Random (MCAR)、Missing At Random (MAR)、Missing Not At Random (MNAR)の3つのメカニズムが文献で定義されている。 既存の作業の多くは、比較的扱いやすいMCARに重点を置いています。 MNARとMARの特別な欠落メカニズムは、あまり解明されず、理解されていない。 この記事では、欠落した値を扱う既存の文献についてレビューする。 異なるメカニズムやデータタイプを扱う能力の観点から、既存のメソッドを比較して比較する。 既存の文献における研究ギャップを特定し、今後の研究の方向性を定めている。 このレビューで得られた情報は、データアナリストや研究者が、現実世界の問題で欠落したデータを扱うための優れたプラクティスを採用し、推進するのに役立ちます。

Missing data poses a significant challenge in data science, affecting decision-making processes and outcomes. Understanding what missing data is, how it occurs, and why it is crucial to handle it appropriately is paramount when working with real-world data, especially in tabular data, one of the most commonly used data types in the real world. Three missing mechanisms are defined in the literature: Missing Completely At Random (MCAR), Missing At Random (MAR), and Missing Not At Random (MNAR), each presenting unique challenges in imputation. Most existing work are focused on MCAR that is relatively easy to handle. The special missing mechanisms of MNAR and MAR are less explored and understood. This article reviews existing literature on handling missing values. It compares and contrasts existing methods in terms of their ability to handle different missing mechanisms and data types. It identifies research gap in the existing literature and lays out potential directions for future research in the field. The information in this review will help data analysts and researchers to adopt and promote good practices for handling missing data in real-world problems.
翻訳日:2024-04-09 19:01:21 公開日:2024-04-07
# 携帯電話でのデュアルカメラスムースズーム

Dual-Camera Smooth Zoom on Mobile Phones ( http://arxiv.org/abs/2404.04908v1 )

ライセンス: Link先を確認
Renlong Wu, Zhilu Zhang, Yu Yang, Wangmeng Zuo, (参考訳) モバイルでのデュアルカメラ間のズームでは、幾何学的内容や画像の色がプレビューで顕著に変化し、ユーザのズーム体験に必然的に影響を及ぼす。 本研究では,スムーズなズームプレビューを実現するために,新しいタスクであるデュアルカメラスムーズズーム(DCSZ)を導入する。 フレーム補間 (FI) 技術は潜在的な解決法であるが、地道収集に苦慮している。 そこで本研究では,連続型仮想カメラを組み込んだデータファクトリソリューションを提案し,シーンの再構成3DモデルをレンダリングしてDCSZデータを生成する。 具体的には、カメラ固有の符号化を導入し、仮想カメラごとに特定の3Dモデルを構築する、新しいデュアルカメラスムーズ・ズーム・ガウス・スプレイティング(ZoomGS)を提案する。 提案するデータファクトリでは,DCSZのための合成データセットを構築し,それを微細なFIモデルに活用する。 さらに,実世界における地絡みのないデュアルズーム画像を収集し,評価を行った。 複数のFI法を用いて大規模な実験を行った。 その結果, 微調整FIモデルでは, DCSZタスクにおける元のモデルに比べて, 大幅な性能向上が達成された。 データセット、コード、事前トレーニングされたモデルが公開される。

When zooming between dual cameras on a mobile, noticeable jumps in geometric content and image color occur in the preview, inevitably affecting the user's zoom experience. In this work, we introduce a new task, ie, dual-camera smooth zoom (DCSZ) to achieve a smooth zoom preview. The frame interpolation (FI) technique is a potential solution but struggles with ground-truth collection. To address the issue, we suggest a data factory solution where continuous virtual cameras are assembled to generate DCSZ data by rendering reconstructed 3D models of the scene. In particular, we propose a novel dual-camera smooth zoom Gaussian Splatting (ZoomGS), where a camera-specific encoding is introduced to construct a specific 3D model for each virtual camera. With the proposed data factory, we construct a synthetic dataset for DCSZ, and we utilize it to fine-tune FI models. In addition, we collect real-world dual-zoom images without ground-truth for evaluation. Extensive experiments are conducted with multiple FI methods. The results show that the fine-tuned FI models achieve a significant performance improvement over the original ones on DCSZ task. The datasets, codes, and pre-trained models will be publicly available.
翻訳日:2024-04-09 19:01:21 公開日:2024-04-07
# MonoTAKD:モノクロ3次元物体検出のためのアシスタント知識蒸留

MonoTAKD: Teaching Assistant Knowledge Distillation for Monocular 3D Object Detection ( http://arxiv.org/abs/2404.04910v1 )

ライセンス: Link先を確認
Hou-I Liu, Christine Wu, Jen-Hao Cheng, Wenhao Chai, Shian-Yun Wang, Gaowen Liu, Jenq-Neng Hwang, Hong-Han Shuai, Wen-Huang Cheng, (参考訳) モノクロ3Dオブジェクト検出(Monocular 3D)は、コスト効率のよいモノクロカメラセンサーとその広範囲な応用のおかげで、自動運転において不可欠な研究トピックである。 画像パースペクティブは深度あいまいであるため、Mono3Dの課題は、3Dシーンの形状を理解し、単一の画像から3Dオブジェクト情報を再構成することにある。 従来の方法では、LiDARベースの教師から直接3D情報をカメラベースの生徒に転送する試みがあった。 しかし、特徴表現のかなりのギャップは直接クロスモーダル蒸留を非効率にし、LiDARベースの教師とカメラベースの学生の間に大きな性能劣化をもたらす。 そこで本研究では, モーダル蒸留とクロスモーダル蒸留を併用することにより, 学習目的を打破する指導支援知識蒸留(MonoTAKD)を提案する。 特に,モダル内蒸留により強力な視覚知識を効果的に蒸留するために,強力なカメラベースの指導支援モデルを用いる。 その後,3次元空間的手がかりを伝達するために,クロスモーダル蒸留を導入する。 視覚的知識と3次元空間的手がかりを両立させることで,KITTI 3Dオブジェクト検出ベンチマークを用いて,提案手法の予測を厳格に評価し,Mono3Dの最先端性能を実現する。

Monocular 3D object detection (Mono3D) is an indispensable research topic in autonomous driving, thanks to the cost-effective monocular camera sensors and its wide range of applications. Since the image perspective has depth ambiguity, the challenges of Mono3D lie in understanding 3D scene geometry and reconstructing 3D object information from a single image. Previous methods attempted to transfer 3D information directly from the LiDAR-based teacher to the camera-based student. However, a considerable gap in feature representation makes direct cross-modal distillation inefficient, resulting in a significant performance deterioration between the LiDAR-based teacher and the camera-based student. To address this issue, we propose the Teaching Assistant Knowledge Distillation (MonoTAKD) to break down the learning objective by integrating intra-modal distillation with cross-modal residual distillation. In particular, we employ a strong camera-based teaching assistant model to distill powerful visual knowledge effectively through intra-modal distillation. Subsequently, we introduce the cross-modal residual distillation to transfer the 3D spatial cues. By acquiring both visual knowledge and 3D spatial cues, the predictions of our approach are rigorously evaluated on the KITTI 3D object detection benchmark and achieve state-of-the-art performance in Mono3D.
翻訳日:2024-04-09 19:01:21 公開日:2024-04-07
# 金融問題における量子回路拡張性の比較研究

Comparative Study of Quantum-Circuit Scalability in a Financial Problem ( http://arxiv.org/abs/2404.04911v1 )

ライセンス: Link先を確認
Jaewoong Heo, Moonjoo Lee, (参考訳) 量子コンピュータは金融問題の解決に広く利用されている。 与えられた量子状態の振幅を推定するアルゴリズムである量子振幅推定は、量子リスク分析で導入された論理として結合の期待値を決定するために用いられる。 評価キュービット数が増加するにつれて、結果期待値がより正確になる。 しかし、この量子ビットの増大は、回路の複雑さの様々なエスカレーションをもたらし、量子コンピューティングデバイスの種類に依存している。 超伝導回路とイオントラップ量子系における2量子ゲートの個数を解析することにより、イオントラップ系のネイティブゲートと接続性は、より複雑な量子回路に繋がることを示した。 1〜19量子ビットで実験を行ったところ、超伝導回路と比較すると、イオントラップ系は必要な2量子ビットゲートの数に対して2~3倍の減少を示すことが明らかとなった。

Quantum computer is extensively used in solving financial problems. Quantum amplitude estimation, an algorithm that aims to estimate the amplitude of a given quantum state, can be utilized to determine the expectation value of bonds as the logic introduced in quantum risk analysis. As the number of the evaluation qubit increases, the more accurate the precise the outcome expectation value is. This augmentation in qubits, however, also leads to a varied escalation in circuit complexity, contingent upon the type of quantum computing device. By analyzing the number of two-qubit gates in the superconducting circuit and ion-trap quantum system, this study examines that the native gates and connectivity nature of the ion-trap system lead to less complicated quantum circuits. Across a range of experiments conducted with one to nineteen qubits, the examination reveals that the ion-trap system exhibits a two to three factor reduction in the number of required two-qubit gates when compared to the superconducting circuit system.
翻訳日:2024-04-09 19:01:21 公開日:2024-04-07
# CodecNeRF: 高速エンコーディング・デコード・コンパクト・高品質ノベルビュー合成を目指して

CodecNeRF: Toward Fast Encoding and Decoding, Compact, and High-quality Novel-view Synthesis ( http://arxiv.org/abs/2404.04913v1 )

ライセンス: Link先を確認
Gyeongjin Kang, Younggeun Lee, Eunbyung Park, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、3Dオブジェクトやシーンを効果的に捉え、表現することで大きな成功を収めた。 しかし、いくつかの要因が次世代3Dメディアとしてさらなる増殖を阻害している。 画像やビデオなどの日常的なメディアフォーマットにおいて、ユビキタスな存在を確立するためには、高速エンコーディングとデコード時間、コンパクトモデルサイズ、高品質レンダリングの3つの主要な目的を効果的に果たすソリューションを考案することが不可欠である。 大幅な進歩にもかかわらず、全ての目的に適切に対処する包括的アルゴリズムはまだ完全には実現されていない。 本研究では,新しいエンコーダとデコーダアーキテクチャからなるNeRF表現のためのニューラルコーデックであるCodecNeRFについて述べる。 さらに, パラメータ効率のよいファインタニング手法に着想を得て, 生成したNeRF表現を新しいテストインスタンスに効率よく適応させるファインタニング手法を開発し, 高品質な画像レンダリングとコンパクトなコードサイズを実現した。 The proposed CodecNeRF, a new proposed encoding-decoding-finetuning pipeline for NeRFは、ShapeNetやObjaverseといった広く使われている3Dオブジェクトデータセット上で画像品質を維持し(または改善)しながら、エンコーディング時間の150倍以上と20倍の圧縮性能を達成した。

Neural Radiance Fields (NeRF) have achieved huge success in effectively capturing and representing 3D objects and scenes. However, several factors have impeded its further proliferation as next-generation 3D media. To establish a ubiquitous presence in everyday media formats, such as images and videos, it is imperative to devise a solution that effectively fulfills three key objectives: fast encoding and decoding time, compact model sizes, and high-quality renderings. Despite significant advancements, a comprehensive algorithm that adequately addresses all objectives has yet to be fully realized. In this work, we present CodecNeRF, a neural codec for NeRF representations, consisting of a novel encoder and decoder architecture that can generate a NeRF representation in a single forward pass. Furthermore, inspired by the recent parameter-efficient finetuning approaches, we develop a novel finetuning method to efficiently adapt the generated NeRF representations to a new test instance, leading to high-quality image renderings and compact code sizes. The proposed CodecNeRF, a newly suggested encoding-decoding-finetuning pipeline for NeRF, achieved unprecedented compression performance of more than 150x and 20x reduction in encoding time while maintaining (or improving) the image quality on widely used 3D object datasets, such as ShapeNet and Objaverse.
翻訳日:2024-04-09 19:01:21 公開日:2024-04-07
# プリミティブエンド・ツー・エンドデコーダによる拡散に基づく知覚画像圧縮の補正

Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder ( http://arxiv.org/abs/2404.04916v1 )

ライセンス: Link先を確認
Yiyang Ma, Wenhan Yang, Jiaying Liu, (参考訳) 拡散モデルにより生成された画像は、優れた知覚品質が得られる。 しかし、拡散モデルが歪みを保証することは困難であるため、拡散モデルと画像圧縮モデルの統合はいまだにより包括的な探索を必要としている。 本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。 我々は拡散モデルを構築し、拡散モデルとエンドツーエンドデコーダを組み合わせた新しいパラダイムを設計し、後者はエンコーダ側で抽出された特権情報を送信する。 具体的には,エンコーダ側の拡散モデルの再構成過程を,元の画像が見えるように理論的に解析する。 この分析に基づいて、エンコーダ側のスコア関数 $\nabla_{\mathbf{x}_t}\log p(\mathbf{x}_t)$ をよりよく近似し、その組み合わせを効果的に伝達する、エンドツーエンドの畳み込みデコーダを導入する。 従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。

The images produced by diffusion models can attain excellent perceptual quality. However, it is challenging for diffusion models to guarantee distortion, hence the integration of diffusion models and image compression models still needs more comprehensive explorations. This paper presents a diffusion-based image compression method that employs a privileged end-to-end decoder model as correction, which achieves better perceptual quality while guaranteeing the distortion to an extent. We build a diffusion model and design a novel paradigm that combines the diffusion model and an end-to-end decoder, and the latter is responsible for transmitting the privileged information extracted at the encoder side. Specifically, we theoretically analyze the reconstruction process of the diffusion models at the encoder side with the original images being visible. Based on the analysis, we introduce an end-to-end convolutional decoder to provide a better approximation of the score function $\nabla_{\mathbf{x}_t}\log p(\mathbf{x}_t)$ at the encoder side and effectively transmit the combination. Experiments demonstrate the superiority of our method in both distortion and perception compared with previous perceptual compression methods.
翻訳日:2024-04-09 18:51:34 公開日:2024-04-07
# マルチタスク選好アライメントのための正規化条件拡散モデル

Regularized Conditional Diffusion Model for Multi-Task Preference Alignment ( http://arxiv.org/abs/2404.04920v1 )

ライセンス: Link先を確認
Xudong Yu, Chenjia Bai, Haoran He, Changhong Wang, Xuelong Li, (参考訳) 連続的な意思決定は、人間の意図と一致し、様々なタスクにまたがる多角性を示すことが望まれる。 従来は条件付き拡散モデルを用いて軌道分布を直接モデル化し,条件生成プロセスとして定式化していた。 それでも、リターン条件付きパラダイムは、事前に定義された報酬関数に依存しており、様々な報酬関数(可逆性)を特徴とするマルチタスク設定に適用し、人間の嗜好(アライメント)に関して限定的な制御性を示す場合の課題に直面している。 本研究では,シングルタスクとマルチタスクの両意思決定の統一条件としてマルチタスク選好を採用し,選好ラベルに整合した選好表現を提案する。 学習した表現は拡散モデルの条件生成過程を導出するために用いられ、表現と対応する軌道の相互情報を最大化するための補助的目的を導入し、軌道と嗜好の整合性を改善する。 D4RLとMeta-Worldの大規模な実験により、本手法はシングルタスクとマルチタスクのシナリオで好適な性能を示し、好みとの整合性が良好であることが示された。

Sequential decision-making is desired to align with human intents and exhibit versatility across various tasks. Previous methods formulate it as a conditional generation process, utilizing return-conditioned diffusion models to directly model trajectory distributions. Nevertheless, the return-conditioned paradigm relies on pre-defined reward functions, facing challenges when applied in multi-task settings characterized by varying reward functions (versatility) and showing limited controllability concerning human preferences (alignment). In this work, we adopt multi-task preferences as a unified condition for both single- and multi-task decision-making, and propose preference representations aligned with preference labels. The learned representations are used to guide the conditional generation process of diffusion models, and we introduce an auxiliary objective to maximize the mutual information between representations and corresponding generated trajectories, improving alignment between trajectories and preferences. Extensive experiments in D4RL and Meta-World demonstrate that our method presents favorable performance in single- and multi-task scenarios, and exhibits superior alignment with preferences.
翻訳日:2024-04-09 18:51:34 公開日:2024-04-07
# 単一画像の超解像に対する効率的な学習的協調的注意

Efficient Learnable Collaborative Attention for Single Image Super-Resolution ( http://arxiv.org/abs/2404.04922v1 )

ライセンス: Link先を確認
Yigang Zhao Chaowei Zheng, Jiannan Su, GuangyongChen, MinGan, (参考訳) 非局所注意(NLA)は、深部画像超解像(SR)における長距離特徴相関を捉えるための強力な手法である。 しかしながら、NLAは、クエリ応答毎にすべての非局所的特徴情報を集約し、異なる抽象レベルの特徴に対して類似度重み分布を再計算する必要があるため、高い計算複雑性とメモリ消費に悩まされている。 これらの課題に対処するために,非局所モデリングに帰納的バイアスを導入する新しい学習可能協調意識(LCoA)を提案する。 LCoAはLearningable Sparse Pattern(LSP)とCollaborative Attention(CoA)の2つのコンポーネントで構成されています。 LSPは、k-meansクラスタリングアルゴリズムを用いて、深い特徴のスパースアテンションパターンを動的に調整し、既存のスパースソリューションと比較して非局所モデリングラウンドの数を減らす。 CoAは、LSPによって学習されたスパースアテンションパターンとウェイトを活用し、異なる抽象レベルで類似度行列を共最適化し、冗長な類似度行列計算を避ける。 実験の結果,LCoAは推論段階において局所的でないモデリング時間を約83%短縮できることがわかった。 さらに,LCoAを深層学習型協調注意ネットワーク(LCoAN)に統合し,従来のSR手法と比較して,推論時間,メモリ消費,再構成品質の面での競争性能を実現する。

Non-Local Attention (NLA) is a powerful technique for capturing long-range feature correlations in deep single image super-resolution (SR). However, NLA suffers from high computational complexity and memory consumption, as it requires aggregating all non-local feature information for each query response and recalculating the similarity weight distribution for different abstraction levels of features. To address these challenges, we propose a novel Learnable Collaborative Attention (LCoA) that introduces inductive bias into non-local modeling. Our LCoA consists of two components: Learnable Sparse Pattern (LSP) and Collaborative Attention (CoA). LSP uses the k-means clustering algorithm to dynamically adjust the sparse attention pattern of deep features, which reduces the number of non-local modeling rounds compared with existing sparse solutions. CoA leverages the sparse attention pattern and weights learned by LSP, and co-optimizes the similarity matrix across different abstraction levels, which avoids redundant similarity matrix calculations. The experimental results show that our LCoA can reduce the non-local modeling time by about 83% in the inference stage. In addition, we integrate our LCoA into a deep Learnable Collaborative Attention Network (LCoAN), which achieves competitive performance in terms of inference time, memory consumption, and reconstruction quality compared with other state-of-the-art SR methods.
翻訳日:2024-04-09 18:51:34 公開日:2024-04-07
# 非弾性散乱過程における普遍エネルギーゆらぎ

Universal energy fluctuations in inelastic scattering processes ( http://arxiv.org/abs/2404.04923v1 )

ライセンス: Link先を確認
Samuel L. Jacob, John Goold, Gabriel T. Landi, Felipe Barra, (参考訳) 量子散乱は、高エネルギー物理学からメソスコピック物理学まで、幅広い分野の実験物理学と理論物理学の両方でユビキタスに使われている。 本研究では、任意の運動エネルギーで粒子と非弾性に散乱する量子系のエネルギーゆらぎに関する普遍的な関係を明らかにする。 特に、基礎となる量子マップの非単位性に依存するエネルギー吸収過程と放出過程の非対称性を記述する揺らぎ関係を証明している。 これにより、交換された平均エネルギーのバウンドを導出することができる。 粒子の運動エネルギーが系のエネルギーに匹敵する場合、エネルギー放出過程は支配的であるが、よく知られたゆらぎ関係が回復される非常に高い運動エネルギーでは禁じられている。 我々の研究は、系を駆動する源がマクロではなく、散乱過程における補助量子粒子であるときに、エネルギー変動の統一的なビューを提供する。

Quantum scattering is used ubiquitously in both experimental and theoretical physics across a wide range of disciplines, from high-energy physics to mesoscopic physics. In this work, we uncover universal relations for the energy fluctuations of a quantum system scattering inelastically with a particle at arbitrary kinetic energies. In particular, we prove a fluctuation relation describing an asymmetry between energy absorbing and releasing processes which relies on the non-unital nature of the underlying quantum map. This allows us to derive a bound on the average energy exchanged. We find that energy releasing processes are dominant when the kinetic energy of the particle is comparable to the system energies, but are forbidden at very high kinetic energies where well known fluctuation relations are recovered. Our work provides a unified view of energy fluctuations when the source driving the system is not macroscopic but rather an auxiliary quantum particle in a scattering process.
翻訳日:2024-04-09 18:51:34 公開日:2024-04-07
# GvT:スクラッチから学習したスラッチを利用したスポーキングヘッドを備えたグラフベースの視覚変換器

GvT: A Graph-based Vision Transformer with Talking-Heads Utilizing Sparsity, Trained from Scratch on Small Datasets ( http://arxiv.org/abs/2404.04924v1 )

ライセンス: Link先を確認
Dongjing Shan, guiqiang chen, (参考訳) 視覚変換器 (ViT) は大規模画像分類において顕著な成果を上げている。 しかしながら、小さなデータセットをスクラッチからトレーニングする場合、インダクティブバイアスの欠如に起因するViTと畳み込みニューラルネットワーク(CNN)の間には、依然として大きなパフォーマンスギャップがある。 この問題に対処するために,グラフ畳み込み投影とグラフプーリングを利用したグラフベースの視覚変換器(GvT)を提案する。 各ブロックにおいて、クエリとキーは空間隣接行列に基づいてグラフ畳み込み投影によって計算され、ドット積の注意は別のグラフ畳み込みで値を生成する。 より注意を向ける場合、クエリとキーは低次元になり、ドット積は非形式的マッチング関数となる。 この低ランクなアテンションヘッドのボトルネックを克服するために、バイリニアプール機能と注目テンソルのスパース選択に基づくトーキングヘッド技術を用いる。 これにより、フィルタリングされたアテンションスコア間のインタラクションが可能になり、各アテンションメカニズムはすべてのクエリとキーに依存することができる。 さらに、2つの中間ブロック間のグラフプーリングを適用し、トークンの数を減らし、意味情報をより効率的に集約する。 我々の実験結果によると、GvTは深層畳み込みネットワークに匹敵するあるいは優れた結果をもたらし、大規模なデータセットを事前学習することなくビジョントランスフォーマーを超越している。 提案したモデルのコードはWebサイトで公開されている。

Vision Transformers (ViTs) have achieved impressive results in large-scale image classification. However, when training from scratch on small datasets, there is still a significant performance gap between ViTs and Convolutional Neural Networks (CNNs), which is attributed to the lack of inductive bias. To address this issue, we propose a Graph-based Vision Transformer (GvT) that utilizes graph convolutional projection and graph-pooling. In each block, queries and keys are calculated through graph convolutional projection based on the spatial adjacency matrix, while dot-product attention is used in another graph convolution to generate values. When using more attention heads, the queries and keys become lower-dimensional, making their dot product an uninformative matching function. To overcome this low-rank bottleneck in attention heads, we employ talking-heads technology based on bilinear pooled features and sparse selection of attention tensors. This allows interaction among filtered attention scores and enables each attention mechanism to depend on all queries and keys. Additionally, we apply graph-pooling between two intermediate blocks to reduce the number of tokens and aggregate semantic information more effectively. Our experimental results show that GvT produces comparable or superior outcomes to deep convolutional networks and surpasses vision transformers without pre-training on large datasets. The code for our proposed model is publicly available on the website.
翻訳日:2024-04-09 18:51:34 公開日:2024-04-07
# 多言語大言語モデル:資源・分類・フロンティアの調査

Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers ( http://arxiv.org/abs/2404.04925v1 )

ライセンス: Link先を確認
Libo Qin, Qiguang Chen, Yuhang Zhou, Zhi Chen, Yinghui Li, Lizi Liao, Min Li, Wanxiang Che, Philip S. Yu, (参考訳) 多言語大言語モデルは、複数の言語におけるクエリの処理と応答に強力な大規模言語モデルを使用することができるため、多言語自然言語処理タスクにおいて顕著な成功を収めている。 これらのブレークスルーにもかかわらず、この分野での既存のアプローチと最近の開発を要約する包括的な調査がまだ残っていない。 そこで本稿では,多言語大言語モデル(MLLM)の文献化の進展とともに,最近の進歩を概観する一貫した視点を提示する。 本論文のコントリビューションは,(1)知識に対する最初の調査,(2)多言語アライメントによるMLLMの研究分野の徹底的な見直し,(2)新たな分類学:MLLMの現在の進歩を要約する新たな統一的な視点を提供する,(3)新たなフロンティア:新興フロンティアをいくつか強調し,それに伴う課題について議論する,(3)アウンダントリソース:関連する論文やデータコーパス,リーダボードなど,豊富なオープンソースリソースを収集する。 私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。

Multilingual Large Language Models are capable of using powerful Large Language Models to handle and respond to queries in multiple languages, which achieves remarkable success in multilingual natural language processing tasks. Despite these breakthroughs, there still remains a lack of a comprehensive survey to summarize existing approaches and recent developments in this field. To this end, in this paper, we present a thorough review and provide a unified perspective to summarize the recent progress as well as emerging trends in multilingual large language models (MLLMs) literature. The contributions of this paper can be summarized: (1) First survey: to our knowledge, we take the first step and present a thorough review in MLLMs research field according to multi-lingual alignment; (2) New taxonomy: we offer a new and unified perspective to summarize the current progress of MLLMs; (3) New frontiers: we highlight several emerging frontiers and discuss the corresponding challenges; (4) Abundant resources: we collect abundant open-source resources, including relevant papers, data corpora, and leaderboards. We hope our work can provide the community with quick access and spur breakthrough research in MLLMs.
翻訳日:2024-04-09 18:51:34 公開日:2024-04-07
# 確率凸最適化における勾配輝度のサンプル複素性

The Sample Complexity of Gradient Descent in Stochastic Convex Optimization ( http://arxiv.org/abs/2404.04931v1 )

ライセンス: Link先を確認
Roi Livni, (参考訳) 我々は,非滑らかな確率凸最適化のセットアップにおいて,GD (Full-batch Gradient Descent) のサンプル複雑性を解析した。 極小パラメータを最適に選択した GD の一般化誤差は $\tilde \Theta(d/m + 1/\sqrt{m})$ であり、$d$ は次元、$m$ は標本サイズである。 これは \emph{worst-case} 経験的リスク最小化器のサンプル複雑性と一致する。 つまり、他のアルゴリズムとは対照的に、GDは単純なERMよりも有利である。 我々の境界は、次元と学習率と反復数の両方に依存する新しい一般化境界から従う。 我々のバウンダリはまた、一般のハイパーパラメーターに対して、次元がサンプルの数より厳密に大きい場合、$T=\Omega(1/\epsilon^4)$ iterationsはオーバーフィッティングを避けるために必要であることを示している。 これにより、開問題は \citet*{schliserman2024dimension, amir2021sgd} によって解決され、サンプルサイズが次元の少なくとも2乗根でなければならないことを示す以前の下界よりも改善される。

We analyze the sample complexity of full-batch Gradient Descent (GD) in the setup of non-smooth Stochastic Convex Optimization. We show that the generalization error of GD, with (minmax) optimal choice of hyper-parameters, can be $\tilde \Theta(d/m + 1/\sqrt{m})$, where $d$ is the dimension and $m$ is the sample size. This matches the sample complexity of \emph{worst-case} empirical risk minimizers. That means that, in contrast with other algorithms, GD has no advantage over naive ERMs. Our bound follows from a new generalization bound that depends on both the dimension as well as the learning rate and number of iterations. Our bound also shows that, for general hyper-parameters, when the dimension is strictly larger than number of samples, $T=\Omega(1/\epsilon^4)$ iterations are necessary to avoid overfitting. This resolves an open problem by \citet*{schliserman2024dimension, amir2021sgd}, and improves over previous lower bounds that demonstrated that the sample size must be at least square root of the dimension.
翻訳日:2024-04-09 18:51:34 公開日:2024-04-07
# 選好モデルの性能に及ぼすリワード・マージンの影響の理解に向けて

Towards Understanding the Influence of Reward Margin on Preference Model Performance ( http://arxiv.org/abs/2404.04932v1 )

ライセンス: Link先を確認
Bowen Qin, Duanyu Feng, Xi Yang, (参考訳) Reinforcement Learning from Human Feedback (RLHF)は、言語モデルのトレーニングに広く使われているフレームワークである。 しかし、RLHFを用いて言語モデルを適切に整合させて開発するプロセスは、特に報酬モデルを最適化する際の課題を提起する。 我々の研究によると、既存の報酬モデルでは、人間の嗜好データに基づいて従来のランク付け目標を用いて訓練すると、現実のシナリオで好ましくない反応を効果的に区別するのに苦労することが多い。 このギャップを埋めるために,人間のアノテータからの詳細なラベルを必要とせず,好みの違いを推定する方法を提案する。 実験の結果,トレーニングプロセスにマージン値を組み込むことで,報酬モデルの有効性が著しく向上することを示す実証的証拠が得られた。 この比較分析は、報奨予測精度の観点から、我々のアプローチの優位性を実証するだけでなく、実用的応用におけるその有効性も強調する。

Reinforcement Learning from Human Feedback (RLHF) is a widely used framework for the training of language models. However, the process of using RLHF to develop a language model that is well-aligned presents challenges, especially when it comes to optimizing the reward model. Our research has found that existing reward models, when trained using the traditional ranking objective based on human preference data, often struggle to effectively distinguish between responses that are more or less favorable in real-world scenarios. To bridge this gap, our study introduces a novel method to estimate the preference differences without the need for detailed, exhaustive labels from human annotators. Our experimental results provide empirical evidence that incorporating margin values into the training process significantly improves the effectiveness of reward models. This comparative analysis not only demonstrates the superiority of our approach in terms of reward prediction accuracy but also highlights its effectiveness in practical applications.
翻訳日:2024-04-09 18:51:34 公開日:2024-04-07
# UniMD: モーメント検索と時間行動検出の統合を目指して

UniMD: Towards Unifying Moment Retrieval and Temporal Action Detection ( http://arxiv.org/abs/2404.04933v1 )

ライセンス: Link先を確認
Yingsen Zeng, Yujie Zhong, Chengjian Feng, Lin Ma, (参考訳) 時間的行動検出(TAD)は、事前に定義されたアクションを検出することに焦点を当て、モーメント検索(MR)は、未トリミングビデオの中で、オープンな自然言語によって記述される事象を特定することを目的としている。 異なるイベントに重点を置いているにも関わらず、大きなつながりがあることを私たちは観察しています。 例えば、MRのほとんどの記述はTADからの複数のアクションを含んでいる。 本稿では,TAD と MR のシナジーの可能性を検討することを目的としており,まず,TAD と MR の双方に対して統一的モーメント検出 (UniMD) と呼ばれる統一アーキテクチャを提案し,TAD の動作や MR のイベントといった2つのタスクの入力を共通の埋め込み空間に変換し,新しいクエリ依存デコーダを用いて分類スコアと時間セグメントの均一な出力を生成する。 第2に,TADとMRの相互利益を高めるために,事前学習と協調訓練という2つのタスク融合学習手法の有効性について検討した。 印象的なことに、UniMDは、Ego4D、Charades-STA、ActivityNetの3つのペアデータセットで最先端の結果を達成する。 私たちのコードはhttps://github.com/yingsen1/UniMDでリリースされます。

Temporal Action Detection (TAD) focuses on detecting pre-defined actions, while Moment Retrieval (MR) aims to identify the events described by open-ended natural language within untrimmed videos. Despite that they focus on different events, we observe they have a significant connection. For instance, most descriptions in MR involve multiple actions from TAD. In this paper, we aim to investigate the potential synergy between TAD and MR. Firstly, we propose a unified architecture, termed Unified Moment Detection (UniMD), for both TAD and MR. It transforms the inputs of the two tasks, namely actions for TAD or events for MR, into a common embedding space, and utilizes two novel query-dependent decoders to generate a uniform output of classification score and temporal segments. Secondly, we explore the efficacy of two task fusion learning approaches, pre-training and co-training, in order to enhance the mutual benefits between TAD and MR. Extensive experiments demonstrate that the proposed task fusion learning scheme enables the two tasks to help each other and outperform the separately trained counterparts. Impressively, UniMD achieves state-of-the-art results on three paired datasets Ego4D, Charades-STA, and ActivityNet. Our code will be released at https://github.com/yingsen1/UniMD.
翻訳日:2024-04-09 18:51:34 公開日:2024-04-07
# 心電図における異常検出 : 自己監督学習による臨床診断の促進

Anomaly Detection in Electrocardiograms: Advancing Clinical Diagnosis Through Self-Supervised Learning ( http://arxiv.org/abs/2404.04935v1 )

ライセンス: Link先を確認
Aofan Jiang, Chaoqin Huang, Qing Cao, Yuchen Xu, Zi Zeng, Kang Chen, Ya Zhang, Yanfeng Wang, (参考訳) 心電図(ECG)は心疾患の診断に必須のツールであり、コンピュータ支援システムにより診断精度が向上し医療費が削減される。 進歩にもかかわらず、既存のシステムは心臓マクロ/ミクロ構造における深刻な生命を脅かす問題や変化の前兆となる稀な心臓異常を見逃すことがしばしばある。 本研究は, 自己教師付き異常検出(AD)に焦点を当て, 正常心電図のみを訓練し, 異常を示す偏差を認識することにより, このギャップに対処する。 本稿では,心電図の異常を自律的に検出し,局所化するために,正常心電図の膨大なデータセットを利用する,心電図ADのための新しい自己教師型学習フレームワークを提案する。 マルチスケールのクロスアテンションモジュールとともに新しいマスキングと復元技術を提案し,グローバルおよびローカルな信号機能を統合する能力を向上させる。 このフレームワークは、ECG信号内の異常の正確な局所化を強調し、その方法の臨床的妥当性と信頼性を保証する。 個人の変動の影響を低減するため、この手法は、年齢や性別などの心電図レポートから重要な患者固有の情報をさらに取り入れ、稀な心疾患を含む幅広い心疾患の正確な同定を可能にする。 実際の臨床実践から得られた478,803心電図の広範なデータセットを用いて,本手法は,発生頻度によらず,既存のモデルよりも有意に優れており,全試験条件におけるADの異常な有効性を示した。 AUROCは91.2%、F1スコアは83.7%、感度は84.2%、特異度は83.0%、精度は75.6%、リコール率は90%だった。 また、AUROCは76.5%、Dice係数は65.3%で、ロバストなローカライゼーション能力も示している。

The electrocardiogram (ECG) is an essential tool for diagnosing heart disease, with computer-aided systems improving diagnostic accuracy and reducing healthcare costs. Despite advancements, existing systems often miss rare cardiac anomalies that could be precursors to serious, life-threatening issues or alterations in the cardiac macro/microstructure. We address this gap by focusing on self-supervised anomaly detection (AD), training exclusively on normal ECGs to recognize deviations indicating anomalies. We introduce a novel self-supervised learning framework for ECG AD, utilizing a vast dataset of normal ECGs to autonomously detect and localize cardiac anomalies. It proposes a novel masking and restoration technique alongside a multi-scale cross-attention module, enhancing the model's ability to integrate global and local signal features. The framework emphasizes accurate localization of anomalies within ECG signals, ensuring the method's clinical relevance and reliability. To reduce the impact of individual variability, the approach further incorporates crucial patient-specific information from ECG reports, such as age and gender, thus enabling accurate identification of a broad spectrum of cardiac anomalies, including rare ones. Utilizing an extensive dataset of 478,803 ECG graphic reports from real-world clinical practice, our method has demonstrated exceptional effectiveness in AD across all tested conditions, regardless of their frequency of occurrence, significantly outperforming existing models. It achieved superior performance metrics, including an AUROC of 91.2%, an F1 score of 83.7%, a sensitivity rate of 84.2%, a specificity of 83.0%, and a precision of 75.6% with a fixed recall rate of 90%. It has also demonstrated robust localization capabilities, with an AUROC of 76.5% and a Dice coefficient of 65.3% for anomaly localization.
翻訳日:2024-04-09 18:51:34 公開日:2024-04-07
# X線エキスパートモデルからの知識の蒸留による胸部CT画像のブートストラップ化

Bootstrapping Chest CT Image Understanding by Distilling Knowledge from X-ray Expert Models ( http://arxiv.org/abs/2404.04936v1 )

ライセンス: Link先を確認
Weiwei Cao, Jianpeng Zhang, Yingda Xia, Tony C. W. Mok, Zi Li, Xianghua Ye, Le Lu, Jian Zheng, Yuxing Tang, Ling Zhang, (参考訳) 放射線技師は医療画像解釈のための完全自動化多目的AIを強く望んでいる。 しかし、注釈付き大規模マルチディスリーズデータセットの欠如は、この目標達成を妨げている。 本稿では,胸部CT画像における言語利用の可能性について検討する。 胸部CT画像の理解を胸部関連診断知識を, 広範囲に訓練した2次元X線専門家モデルから抽出し, 胸部CT画像の理解をブートストラップした。 具体的には,各3次元CT画像とセマンティックに最も近い2次元X線画像とをマッチングし,ペアワイズおよびセマンティックな関係知識蒸留を行う言語誘導検索手法を提案する。 その後, コントラスト学習を用いて画像と報告を同一患者内に配置し, 他の患者と区別する。 しかし、健康な患者のような類似した意味診断がある患者が、陰性として治療すれば混乱する可能性がある場合に、この課題が生じる。 我々は、これらの偽陰性を識別し、修正する頑健な対照的な学習を導入する。 胸部CT画像と放射線検査で12,000対以上の画像でモデルを訓練した。 ゼロショット学習、レポート生成、微調整プロセスを含む複数のシナリオにわたる大規模な実験は、胸部CT画像の解釈におけるモデルの有効性を実証している。

Radiologists highly desire fully automated versatile AI for medical imaging interpretation. However, the lack of extensively annotated large-scale multi-disease datasets has hindered the achievement of this goal. In this paper, we explore the feasibility of leveraging language as a naturally high-quality supervision for chest CT imaging. In light of the limited availability of image-report pairs, we bootstrap the understanding of 3D chest CT images by distilling chest-related diagnostic knowledge from an extensively pre-trained 2D X-ray expert model. Specifically, we propose a language-guided retrieval method to match each 3D CT image with its semantically closest 2D X-ray image, and perform pair-wise and semantic relation knowledge distillation. Subsequently, we use contrastive learning to align images and reports within the same patient while distinguishing them from the other patients. However, the challenge arises when patients have similar semantic diagnoses, such as healthy patients, potentially confusing if treated as negatives. We introduce a robust contrastive learning that identifies and corrects these false negatives. We train our model with over 12,000 pairs of chest CT images and radiology reports. Extensive experiments across multiple scenarios, including zero-shot learning, report generation, and fine-tuning processes, demonstrate the model's feasibility in interpreting chest CT images.
翻訳日:2024-04-09 18:51:34 公開日:2024-04-07
# ブロックチェーンを活用したモバイルAIGCのための情報伝達の最適化:グラフ注意ネットワークアプローチ

Optimizing Information Propagation for Blockchain-empowered Mobile AIGC: A Graph Attention Network Approach ( http://arxiv.org/abs/2404.04937v1 )

ライセンス: Link先を確認
Jiana Liao, Jinbo Wen, Jiawen Kang, Yang Zhang, Jianbo Du, Qihao Li, Weiting Zhang, Dong Yang, (参考訳) AIGC(Artificial Intelligence-Generated Content)は、高度なAIアルゴリズムを使用してコンテンツを生成する、急速に進化する分野である。 モバイルエッジネットワークとの統合を通じて、モバイルAIGCネットワークは大きな注目を集め、リアルタイムにカスタマイズされたパーソナライズされたAIGCサービスと製品を提供することができる。 ブロックチェーンは分散化された透過的なデータ管理を容易にするため、AIGC製品はブロックチェーンによってセキュアに管理され、改ざんや盗用を避けることができる。 しかし、ブロックチェーンを動力とするモバイルAIGCの進化はまだ初期段階にあり、ブロックチェーンを動力とするモバイルAIGCを実現するための情報伝搬効率の改善といった課題に悩まされている。 本稿では,ブロックチェーンを活用したモバイルAIGCのためのグラフ注意ネットワーク(GAT)ベースの情報伝搬最適化フレームワークを設計する。 まず、公開ブロックチェーンにおける情報伝達効率を測定するために、データ更新度指標として、情報の年齢を革新的に適用する。 グラフ構造化データの処理能力に優れたGATが存在することを考慮し、GATを用いて最適な情報伝達軌道を得る。 シミュレーションの結果,提案手法は従来のルーティング方式と比較して,最も優れた情報伝達効率を示すことがわかった。

Artificial Intelligence-Generated Content (AIGC) is a rapidly evolving field that utilizes advanced AI algorithms to generate content. Through integration with mobile edge networks, mobile AIGC networks have gained significant attention, which can provide real-time customized and personalized AIGC services and products. Since blockchains can facilitate decentralized and transparent data management, AIGC products can be securely managed by blockchain to avoid tampering and plagiarization. However, the evolution of blockchain-empowered mobile AIGC is still in its nascent phase, grappling with challenges such as improving information propagation efficiency to enable blockchain-empowered mobile AIGC. In this paper, we design a Graph Attention Network (GAT)-based information propagation optimization framework for blockchain-empowered mobile AIGC. We first innovatively apply age of information as a data-freshness metric to measure information propagation efficiency in public blockchains. Considering that GATs possess the excellent ability to process graph-structured data, we utilize the GAT to obtain the optimal information propagation trajectory. Numerical results demonstrate that the proposed scheme exhibits the most outstanding information propagation efficiency compared with traditional routing mechanisms.
翻訳日:2024-04-09 18:51:34 公開日:2024-04-07
# SemEval-2024 Task 2:Safe Biomedical Natural Language Inference for Clinical Trials

SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for Clinical Trials ( http://arxiv.org/abs/2404.04963v1 )

ライセンス: Link先を確認
Mael Jullien, Marco Valentino, André Freitas, (参考訳) 大規模言語モデル(LLM)は、NLPの成果の最前線にあるが、ショートカット学習、事実的不整合、敵の入力に対する脆弱性を扱うには不足している。 ここでは,SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for ClinicalTrialsを紹介する。 我々の貢献には、洗練されたNLI4CT-Pデータセット(Natural Language Inference for Clinical Trials - Perturbed)が含まれています。 このタスクに登録された参加者は合計106人であり、1200以上の個人申請と25のシステム概要書に貢献している。 このイニシアチブは、医療におけるNLIモデルの堅牢性と適用性を向上し、臨床意思決定におけるより安全で信頼性の高いAIアシストを保証することを目的としている。 我々は, この課題のデータセット, モデル, 成果が, バイオメディカルNLIの分野における今後の研究を支援することを期待する。 データセット、コンペのリーダーボード、Webサイトが公開されている。

Large Language Models (LLMs) are at the forefront of NLP achievements but fall short in dealing with shortcut learning, factual inconsistency, and vulnerability to adversarial inputs.These shortcomings are especially critical in medical contexts, where they can misrepresent actual model capabilities. Addressing this, we present SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for ClinicalTrials. Our contributions include the refined NLI4CT-P dataset (i.e., Natural Language Inference for Clinical Trials - Perturbed), designed to challenge LLMs with interventional and causal reasoning tasks, along with a comprehensive evaluation of methods and results for participant submissions. A total of 106 participants registered for the task contributing to over 1200 individual submissions and 25 system overview papers. This initiative aims to advance the robustness and applicability of NLI models in healthcare, ensuring safer and more dependable AI assistance in clinical decision-making. We anticipate that the dataset, models, and outcomes of this task can support future research in the field of biomedical NLI. The dataset, competition leaderboard, and website are publicly available.
翻訳日:2024-04-09 18:51:34 公開日:2024-04-07
# 動的識別学習:ビデオ異常検出のための適応的擬似異常

Dynamic Distinction Learning: Adaptive Pseudo Anomalies for Video Anomaly Detection ( http://arxiv.org/abs/2404.04986v1 )

ライセンス: Link先を確認
Demetris Lappas, Vasileios Argyriou, Dimitrios Makris, (参考訳) 本稿では,ビデオ異常検出のための動的識別学習(DDL),擬似異常検出,動的異常重み付け,識別損失関数を組み合わせた新しいビデオ異常検出手法を提案する。 擬似異常の訓練により, 異常閾値を一定に保たず, 正常および異常な動作の変動に適応する。 我々のモデルはPed2, Avenue, ShanghaiTechのデータセットで優れたパフォーマンスを示しており、各シーンごとに個別のモデルが調整されている。 これらの成果は、ビデオ監視の課題に対してスケーラブルで適応可能なソリューションを提供する、異常検出の進歩におけるDDLの有効性を強調している。

We introduce Dynamic Distinction Learning (DDL) for Video Anomaly Detection, a novel video anomaly detection methodology that combines pseudo-anomalies, dynamic anomaly weighting, and a distinction loss function to improve detection accuracy. By training on pseudo-anomalies, our approach adapts to the variability of normal and anomalous behaviors without fixed anomaly thresholds. Our model showcases superior performance on the Ped2, Avenue and ShanghaiTech datasets, where individual models are tailored for each scene. These achievements highlight DDL's effectiveness in advancing anomaly detection, offering a scalable and adaptable solution for video surveillance challenges.
翻訳日:2024-04-09 18:51:34 公開日:2024-04-07
# 野生におけるOSS異常パッケージ解析

OSS Malicious Package Analysis in the Wild ( http://arxiv.org/abs/2404.04991v1 )

ライセンス: Link先を確認
Xiaoyan Zhou, Ying Zhang, Wenjia Niu, Jiqiang Liu, Haining Wang, Qiang Li, (参考訳) オープンソースのソフトウェア(OSS)エコシステムはさまざまなセキュリティ上の脅威とリスクに悩まされており、悪意のあるパッケージはソフトウェアサプライチェーン(SSC)攻撃において中心的な役割を果たす。 マルウェア研究は30年以上の歴史があるが、OSSマルウェアにはあまり注目されていない。 既存の研究には、高品質なデータセットの欠如、マルウェアの多様性、攻撃キャンペーンコンテキストの3つの制限がある。 本稿では,散在するオンラインソースから23,425の悪意あるパッケージのデータセットを作成した。 次に,OSSマルウェアコーパスを表現し,悪意のあるパッケージ分析を行う知識グラフを提案する。 本研究の主目的は,(1)複数のオンラインソースから悪意あるパッケージを収集することが重要であること,(2)SSC攻撃キャンペーンの重大量にもかかわらず,多くの悪意あるパッケージが類似しており,未知・高度な攻撃行動がまだ発生または検出されていないこと,(3)OSS悪意のあるパッケージは, {changing->release->detection->removal} と表記され,パッケージ(異名)をわずかに変更することが広範囲にわたる攻撃方法であること,(4) 悪意のあるパッケージは,どのように,誰がリリースしたかという文脈を欠いていることが多いが,セキュリティ報告は対応するSSC攻撃キャンペーンに関する情報を開示する。

The open-source software (OSS) ecosystem suffers from various security threats and risks, and malicious packages play a central role in software supply chain (SSC) attacks. Although malware research has a history of over thirty years, less attention has been paid to OSS malware. Its existing research has three limitations: a lack of high-quality datasets, malware diversity, and attack campaign context. In this paper, we first build and curate the largest dataset of 23,425 malicious packages from scattered online sources. We then propose a knowledge graph to represent the OSS malware corpus and conduct malicious package analysis in the wild. Our main findings include (1) it is essential to collect malicious packages from various online sources because there is little data overlap between different sources; (2) despite the sheer volume of SSC attack campaigns, many malicious packages are similar, and unknown/sophisticated attack behaviors have yet to emerge or be detected; (3) OSS malicious package has its distinct life cycle, denoted as {changing->release->detection->removal}, and slightly changing the package (different name) is a widespread attack manner; (4) while malicious packages often lack context about how and who released them, security reports disclose the information about corresponding SSC attack campaigns.
翻訳日:2024-04-09 18:51:34 公開日:2024-04-07
# 皮膚のトーンを横断する何百人もの被験者に対するカメラによるリモート生理計測

Camera-Based Remote Physiology Sensing for Hundreds of Subjects Across Skin Tones ( http://arxiv.org/abs/2404.05003v1 )

ライセンス: Link先を確認
Jiankai Tang, Xinyi Li, Jiacheng Liu, Xiyuxing Zhang, Zeyu Wang, Yuntao Wang, (参考訳) 遠隔プラチスモグラフィー(rPPG)は、カメラの広範な存在を利用して、非侵襲的で便利なバイタルサインの測定のための有望な方法として現れる。 進歩にもかかわらず、既存のデータセットはサイズと多様性の点で不足しており、多様な条件下での包括的な評価を制限している。 本稿では,893名の被験者と6名のフィッツパトリックスキントーンを含む世界最大級のrPPGデータセットであるVitalVideoデータセットについて,詳細な分析を行った。 6つの教師なし手法と3つの教師付きモデルを用いて実験したところ、数百の被験者(UBFC-rPPGは300、PUREは500、MMPD-Simpleは700)からなるデータセットが有効なrPPGモデルトレーニングに十分であることが示された。 本研究は,異なるデータセット間での正確な性能評価のために,肌の色調における多様性と一貫性の重要性を強調した。

Remote photoplethysmography (rPPG) emerges as a promising method for non-invasive, convenient measurement of vital signs, utilizing the widespread presence of cameras. Despite advancements, existing datasets fall short in terms of size and diversity, limiting comprehensive evaluation under diverse conditions. This paper presents an in-depth analysis of the VitalVideo dataset, the largest real-world rPPG dataset to date, encompassing 893 subjects and 6 Fitzpatrick skin tones. Our experimentation with six unsupervised methods and three supervised models demonstrates that datasets comprising a few hundred subjects(i.e., 300 for UBFC-rPPG, 500 for PURE, and 700 for MMPD-Simple) are sufficient for effective rPPG model training. Our findings highlight the importance of diversity and consistency in skin tones for precise performance evaluation across different datasets.
翻訳日:2024-04-09 18:41:48 公開日:2024-04-07
# FGAIF: きめ細かいAIフィードバックによる大規模ビジョンランゲージモデルの調整

FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback ( http://arxiv.org/abs/2404.05046v1 )

ライセンス: Link先を確認
Liqiang Jing, Xinya Du, (参考訳) LVLM(Large Vision-Language Models)は、様々な視覚言語タスクに取り組む能力を示す。 しかし、現在のLVLMは、3種類の幻覚、すなわちオブジェクトの存在、オブジェクト属性、オブジェクトの関係を引き起こす、テキストと画像のモダリティの不一致に悩まされている。 この問題に対処するため、既存の手法は主に強化学習(RL)を用いてLVLMのモダリティを調整している。 しかし, 一般フィードバックは反応に含まれる幻覚のタイプを示すことができない, スパース報酬は反応全体に対してのみシーケンスレベルの報酬を与える, アノテーションのコストは時間と労力がかかる, という3つの大きな制限がまだ残っている。 これらの制約に対処するために、AIベースのフィードバックコレクション、きめ細かいリワードモデルトレーニング、きめ細かいリワードによる強化学習の3段階からなるFGAIF(Fined Artificial Intelligence Feedback)を用いて、LVLMのモダリティを整合させる革新的な手法を提案する。 具体的には、まずAIツールを使用して、応答中の各セグメントの幻覚のタイプを予測し、きめ細かいフィードバックを収集する。 そして、収集した報酬データに基づいて、密集した報酬を生成するために、3つの特別報酬モデルが訓練される。 最後に、新しいきめ細かいフィードバックモジュールをPPOアルゴリズムに統合する。 幻覚および一般ベンチマークにおいて,提案手法の優れた性能を示す大規模な実験を行った。 特に,RL法を用いてトレーニングした従来のモデルと比較して,提案手法は少ないパラメータでも有効である。

Large Vision-Language Models (LVLMs) have demonstrated proficiency in tackling a variety of visual-language tasks. However, current LVLMs suffer from misalignment between text and image modalities which causes three kinds of hallucination problems, i.e., object existence, object attribute, and object relationship. To tackle this issue, existing methods mainly utilize Reinforcement Learning (RL) to align modalities in LVLMs. However, they still suffer from three main limitations: (1) General feedback can not indicate the hallucination type contained in the response; (2) Sparse rewards only give the sequence-level reward for the whole response; and (3)Annotation cost is time-consuming and labor-intensive. To handle these limitations, we propose an innovative method to align modalities in LVLMs through Fine-Grained Artificial Intelligence Feedback (FGAIF), which mainly consists of three steps: AI-based Feedback Collection, Fine-grained Reward Model Training, and Reinforcement Learning with Fine-grained Reward. Specifically, We first utilize AI tools to predict the types of hallucination for each segment in the response and obtain a collection of fine-grained feedback. Then, based on the collected reward data, three specialized reward models are trained to produce dense rewards. Finally, a novel fine-grained feedback module is integrated into the Proximal Policy Optimization (PPO) algorithm. Extensive experiments are conducted on hallucination and general benchmarks, demonstrating the superior performance of our proposed method. Notably, compared with previous models trained with the RL-based aligning method, our proposed method is effective even with fewer parameters.
翻訳日:2024-04-09 18:41:48 公開日:2024-04-07
# 不変表現に対するロバストな評価

A robust assessment for invariant representations ( http://arxiv.org/abs/2404.05058v1 )

ライセンス: Link先を確認
Wenlu Tang, Zicheng Liu, (参考訳) 機械学習モデルのパフォーマンスは、時間とともにデータの変化によって影響を受ける可能性がある。 この課題に対処するための有望なアプローチは不変学習であり、特に不変リスク最小化(IRM)と呼ばれる手法に焦点を当てている。 本手法は, アウト・オブ・ディストリビューション(OOD)データに対して有効である安定なデータ表現を同定することを目的とする。 多くの研究がデータ拡張シナリオに適応するIRMベースの手法を開発してきたが、これらの表現が様々な条件下で不変性能をどの程度維持するかを直接評価することには注意が払われている。 本稿では,IRMに基づく手法に特化して,不変性能を評価する新しい手法を提案する。 我々は、確率比を用いて、異なる環境にわたる不変予測器の条件予測の間の橋渡しを確立する。 提案する基準は、不変性能を評価するための堅牢な基盤を提供する。 提案手法を理論的支援により検証し,その有効性を示す。これらの実験は,様々な表現技法の不変性を評価する方法を示す。

The performance of machine learning models can be impacted by changes in data over time. A promising approach to address this challenge is invariant learning, with a particular focus on a method known as invariant risk minimization (IRM). This technique aims to identify a stable data representation that remains effective with out-of-distribution (OOD) data. While numerous studies have developed IRM-based methods adaptive to data augmentation scenarios, there has been limited attention on directly assessing how well these representations preserve their invariant performance under varying conditions. In our paper, we propose a novel method to evaluate invariant performance, specifically tailored for IRM-based methods. We establish a bridge between the conditional expectation of an invariant predictor across different environments through the likelihood ratio. Our proposed criterion offers a robust basis for evaluating invariant performance. We validate our approach with theoretical support and demonstrate its effectiveness through extensive numerical studies.These experiments illustrate how our method can assess the invariant performance of various representation techniques.
翻訳日:2024-04-09 18:41:48 公開日:2024-04-07
# DWIデータによる新アジュバント化学療法による乳癌反応の予測

Automated Prediction of Breast Cancer Response to Neoadjuvant Chemotherapy from DWI Data ( http://arxiv.org/abs/2404.05061v1 )

ライセンス: Link先を確認
Shir Nitzan, Maya Gilad, Moti Freiman, (参考訳) 乳腺癌に対する効果的な外科的計画法は, 腫瘍化学療法(NAC)に対する病理学的完全反応(pCR)を正確に予測するものである。 拡散強調MRI(DWI)と機械学習は、早期pCR評価に非侵襲的なアプローチを提供する。 しかし、ほとんどの機械学習モデルは手動の腫瘍セグメント化を必要としている。 そこで本研究では,pCR予測精度を高めるために,DWI腫瘍の自動セグメント化に"Size-Adaptive Lesion Weighting"を用いたディープラーニングモデルを提案する。 NACによるDWI画像分割の複雑化に伴う病理組織学的変化にもかかわらず,本モデルではロバストな性能を示す。 BMMR2チャレンジデータセットを利用することで、pCR前NACの予測専門家と曲線(AUC)の0.76 vs. 0.796の領域をマッチングし、NACの中間で標準の自動化手法を上回り、AUCは0.729 vs. 0.654, 0.576である。 本手法は乳がん治療計画の自動化において大きな進歩を示し,手動分割なしでより信頼性の高いpCR予測を可能にする。

Effective surgical planning for breast cancer hinges on accurately predicting pathological complete response (pCR) to neoadjuvant chemotherapy (NAC). Diffusion-weighted MRI (DWI) and machine learning offer a non-invasive approach for early pCR assessment. However, most machine-learning models require manual tumor segmentation, a cumbersome and error-prone task. We propose a deep learning model employing "Size-Adaptive Lesion Weighting" for automatic DWI tumor segmentation to enhance pCR prediction accuracy. Despite histopathological changes during NAC complicating DWI image segmentation, our model demonstrates robust performance. Utilizing the BMMR2 challenge dataset, it matches human experts in pCR prediction pre-NAC with an area under the curve (AUC) of 0.76 vs. 0.796, and surpasses standard automated methods mid-NAC, with an AUC of 0.729 vs. 0.654 and 0.576. Our approach represents a significant advancement in automating breast cancer treatment planning, enabling more reliable pCR predictions without manual segmentation.
翻訳日:2024-04-09 18:41:48 公開日:2024-04-07
# SEER-MoE:Sparse Expert efficient through regularization for Mixture-of-Experts

SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts ( http://arxiv.org/abs/2404.05089v1 )

ライセンス: Link先を確認
Alexandre Muzio, Alex Sun, Churan He, (参考訳) ディープラーニングの進歩は、入力に基づいて計算資源を動的に割り当てることで知られるMixture-of-Experts(MoEs)モデルの出現につながった。 約束にもかかわらず、特にメモリ要件の観点から、MoEは課題に直面している。 そこで本研究では,メモリフットプリントと事前学習したMoEモデルの計算要求を両立させる2段階フレームワークSEER-MoEを紹介した。 第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して、精度の損失を回復し、推論中にアクティブな専門家の数を減少させる。 実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。

The advancement of deep learning has led to the emergence of Mixture-of-Experts (MoEs) models, known for their dynamic allocation of computational resources based on input. Despite their promise, MoEs face challenges, particularly in terms of memory requirements. To address this, our work introduces SEER-MoE, a novel two-stage framework for reducing both the memory footprint and compute requirements of pre-trained MoE models. The first stage involves pruning the total number of experts using a heavy-hitters counting guidance, while the second stage employs a regularization-based fine-tuning strategy to recover accuracy loss and reduce the number of activated experts during inference. Our empirical studies demonstrate the effectiveness of our method, resulting in a sparse MoEs model optimized for inference efficiency with minimal accuracy trade-offs.
翻訳日:2024-04-09 18:41:48 公開日:2024-04-07
# クラスタセントロイドのないファジィK平均クラスタリング

Fuzzy K-Means Clustering without Cluster Centroids ( http://arxiv.org/abs/2404.04940v1 )

ライセンス: Link先を確認
Han Lu, Fangfang Li, Quanxue Gao, Cheng Deng, Chris Ding, Qianqian Wang, (参考訳) ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。 しかし、一般的なファジィK平均アルゴリズムの性能は、初期クラスタセントロイドの選択に敏感であり、平均クラスタセントロイドを更新する際のノイズにも影響する。 これらの課題に対処するため,本研究では,距離行列計算のみで会員行列を取得することにより,クラスタセントロイドへの依存を完全に解消する,ファジィK平均クラスタリングアルゴリズムを提案する。 この革新により、サンプルポイント間の距離測定の柔軟性が向上し、アルゴリズムの性能と堅牢性が向上する。 また,提案モデルとFizzy K-Meansクラスタリング手法の理論的関連性を確立する。 いくつかの実データに対する実験結果から,アルゴリズムの有効性が示された。

Fuzzy K-Means clustering is a critical technique in unsupervised data analysis. However, the performance of popular Fuzzy K-Means algorithms is sensitive to the selection of initial cluster centroids and is also affected by noise when updating mean cluster centroids. To address these challenges, this paper proposes a novel Fuzzy K-Means clustering algorithm that entirely eliminates the reliance on cluster centroids, obtaining membership matrices solely through distance matrix computation. This innovation enhances flexibility in distance measurement between sample points, thus improving the algorithm's performance and robustness. The paper also establishes theoretical connections between the proposed model and popular Fuzzy K-Means clustering techniques. Experimental results on several real datasets demonstrate the effectiveness of the algorithm.
翻訳日:2024-04-09 18:22:15 公開日:2024-04-07
# マルチトレートスペシャライゼーションによるゼロショットエッセイスコーリングのための大規模言語モデルの提案

Prompting Large Language Models for Zero-shot Essay Scoring via Multi-trait Specialization ( http://arxiv.org/abs/2404.04941v1 )

ライセンス: Link先を確認
Sanwoo Lee, Yida Cai, Desong Meng, Ziyang Wang, Yunfang Wu, (参考訳) 自動エッセイ評価(AES)の進歩は、伝統的にラベル付きエッセイに依存しており、買収には莫大なコストと専門知識を必要としている。 近年,大規模言語モデル (LLM) は様々なタスクにおいて大きな成功を収めている。 本稿では,LLMにおけるエッセイ評価能力を引き出すため,ゼロショットプロンプトフレームワークであるマルチトレートスペシャライゼーション(MTS)を提案する。 具体的には、ChatGPTを利用して、文字の習熟度を異なる特徴に分解し、各特徴のスコアリング基準を生成する。 そして、LLMが複数の対話ラウンドから特徴点を抽出するよう促され、各ラウンドは評価基準に基づいて特徴点の1つをスコアする。 最後に、特性平均化とmin-maxスケーリングによる全体的なスコアを導出する。 2つのベンチマークデータセットの実験結果から、TSは平均的なQWK(Vanilla)をすべてのLLMとデータセットで一貫して上回り、TOEFL11では0.437、ASAPでは0.355となっている。 さらに、MSSの助けを借りて、小型のLlama2-13b-chatはChatGPTを大幅に上回り、実際のアプリケーションに効果的なデプロイを促進する。

Advances in automated essay scoring (AES) have traditionally relied on labeled essays, requiring tremendous cost and expertise for their acquisition. Recently, large language models (LLMs) have achieved great success in various tasks, but their potential is less explored in AES. In this paper, we propose Multi Trait Specialization (MTS), a zero-shot prompting framework to elicit essay scoring capabilities in LLMs. Specifically, we leverage ChatGPT to decompose writing proficiency into distinct traits and generate scoring criteria for each trait. Then, an LLM is prompted to extract trait scores from several conversational rounds, each round scoring one of the traits based on the scoring criteria. Finally, we derive the overall score via trait averaging and min-max scaling. Experimental results on two benchmark datasets demonstrate that MTS consistently outperforms straightforward prompting (Vanilla) in average QWK across all LLMs and datasets, with maximum gains of 0.437 on TOEFL11 and 0.355 on ASAP. Additionally, with the help of MTS, the small-sized Llama2-13b-chat substantially outperforms ChatGPT, facilitating an effective deployment in real applications.
翻訳日:2024-04-09 18:22:15 公開日:2024-04-07
# グラフ表現によるランク付け学習に基づくチプレット配置順序探索

Chiplet Placement Order Exploration Based on Learning to Rank with Graph Representation ( http://arxiv.org/abs/2404.04943v1 )

ライセンス: Link先を確認
Zhihui Deng, Yuanyuan Duan, Leilai Shao, Xiaolei Zhu, (参考訳) チップレットベースのシステムは、様々な集積回路技術ノードで製造された様々なシリコンダイスをキャリアインターポーザに統合し、コスト効率と競争性能のために近年大きな注目を集めている。 逐次配置法としての強化学習の普及により,各チップレットの最適配置順序を決定する新たな課題がもたらされた。 インターポーザにチップレットを配置する順序は、それ以前に設置したチップレットの空間資源に影響を与え、チップレット配置の順序に非常に敏感な配置結果となる。 これらの課題に対処するために,強化学習フレームワーク RLPlanner 上に構築したグラフ表現を用いた学習手法を提案する。 本手法は,各チップレットベースのシステムに対して最適なチップレット配置順序を選択することを目的とする。 実験結果から,チップレット領域の降下順序とチップレット間の配線数のみに基づいて得られる配置順序と比較して,学習ネットワークから得られる配置順序を利用して,システム温度とチップレット間ワイヤ長のさらなる改善が得られた。 具体的には、学習から得られたトップランクの配置順序をランク付けネットワークに適用すると、チップレットの配置過程において、チップレット間のワイヤ長が10.05%減少し、ピーク系温度が1.01%向上する。

Chiplet-based systems, integrating various silicon dies manufactured at different integrated circuit technology nodes on a carrier interposer, have garnered significant attention in recent years due to their cost-effectiveness and competitive performance. The widespread adoption of reinforcement learning as a sequential placement method has introduced a new challenge in determining the optimal placement order for each chiplet. The order in which chiplets are placed on the interposer influences the spatial resources available for earlier and later placed chiplets, making the placement results highly sensitive to the sequence of chiplet placement. To address these challenges, we propose a learning to rank approach with graph representation, building upon the reinforcement learning framework RLPlanner. This method aims to select the optimal chiplet placement order for each chiplet-based system. Experimental results demonstrate that compared to placement order obtained solely based on the descending order of the chiplet area and the number of interconnect wires between the chiplets, utilizing the placement order obtained from the learning to rank network leads to further improvements in system temperature and inter-chiplet wirelength. Specifically, applying the top-ranked placement order obtained from the learning to rank network results in a 10.05% reduction in total inter-chiplet wirelength and a 1.01% improvement in peak system temperature during the chiplet placement process.
翻訳日:2024-04-09 18:22:15 公開日:2024-04-07
# AnimateZoo: 被写体アライメントによる異種アニメーションのゼロショット映像生成

AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment ( http://arxiv.org/abs/2404.04946v1 )

ライセンス: Link先を確認
Yuanfeng Xu, Yuhao Chen, Zhongzhan Huang, Zijian He, Guangrun Wang, Philip Torr, Liang Lin, (参考訳) 近年の映像編集の進歩は、被写体をアニメーション化するための正確なポーズシーケンスに依存している。 しかし、これらの努力は種間の相違による異種間アニメーションには適していない(例えば、猫のポーズは体の構造の違いによって豚のポーズと大きく異なる)。 本稿では,動物アニメーションを正確に生成し,背景を保存しつつ,動物アニメーションを正確に生成することを目的とした,ゼロショット拡散に基づくビデオジェネレータAnimateZooを提案する。 AnimateZooで使われている重要なテクニックは、2つのステップを含む被写体アライメントです。 まず,ラプラシアンディテールブースターと早期調整ID抽出器を組み合わせることで外観特徴抽出を改善する。 これらのコンポーネントは、アイデンティティや詳細な詳細を含む、重要な外観情報を取得するように設計されている。 第2に,スケールインフォメーション除去器を導入することにより,異なる被験者からの形状特徴と対応コンフリクトを整列する。 これにより、正確なクロススペックアニメーションが保証される。 さらに,多種多様な動物を特徴とする高品質な動物ビデオデータセットを2種類導入した。 これらの広範囲なデータセットに基づいて、我々のモデルは、事前推論の微調整を必要とせず、正確な動き、一貫した外観、高忠実度フレームを特徴とするビデオを生成することができる。 広範囲な実験により, 課題に追従する種間行動における本手法の卓越した性能を示し, 例外的な形状適応能力を示した。 プロジェクトページはhttps://justinxu0.github.io/AnimateZoo/で公開されている。

Recent video editing advancements rely on accurate pose sequences to animate subjects. However, these efforts are not suitable for cross-species animation due to pose misalignment between species (for example, the poses of a cat differs greatly from that of a pig due to differences in body structure). In this paper, we present AnimateZoo, a zero-shot diffusion-based video generator to address this challenging cross-species animation issue, aiming to accurately produce animal animations while preserving the background. The key technique used in our AnimateZoo is subject alignment, which includes two steps. First, we improve appearance feature extraction by integrating a Laplacian detail booster and a prompt-tuning identity extractor. These components are specifically designed to capture essential appearance information, including identity and fine details. Second, we align shape features and address conflicts from differing subjects by introducing a scale-information remover. This ensures accurate cross-species animation. Moreover, we introduce two high-quality animal video datasets featuring a wide variety of species. Trained on these extensive datasets, our model is capable of generating videos characterized by accurate movements, consistent appearance, and high-fidelity frames, without the need for the pre-inference fine-tuning that prior arts required. Extensive experiments showcase the outstanding performance of our method in cross-species action following tasks, demonstrating exceptional shape adaptation capability. The project page is available at https://justinxu0.github.io/AnimateZoo/.
翻訳日:2024-04-09 18:22:15 公開日:2024-04-07
# Gull:多機能オーディオコーデック

Gull: A Generative Multifunctional Audio Codec ( http://arxiv.org/abs/2404.04947v1 )

ライセンス: Link先を確認
Yi Luo, Jianwei Yu, Hangting Chen, Rongzhi Gu, Chao Weng, (参考訳) 生成型多機能オーディオコーデックGullを紹介する。 Gullは汎用的なニューラルオーディオ圧縮・圧縮モデルであり、リアルタイム通信、オーディオ超解像、コーデック言語モデルといった幅広いタスクやアプリケーションに適用することができる。 Gull の主な構成要素は,(1) 音源分離の最近の進展を動機としたサブバンドモデリングによるユニバーサルサンプリングレートモデリング,(2) 従来のオーディオコーデックによるゲイン形状表現,(3) 簡易なトレーニングのための残留ベクトル量子化モジュールの改良,(4) 推論時間におけるユーザ定義モデルサイズと複雑性を実現する弾性デコーダネットワーク,(5) ビットレートの増加を伴わないオーディオ超解像のビルトイン機能などである。 Gullは従来の音声コーデックとニューラルオーディオのコーデックを比較し、さまざまなサンプルレート、ビットレート、モデルの複雑さを主観的および客観的評価の指標で同等以上のパフォーマンスを達成することができることを示す。

We introduce Gull, a generative multifunctional audio codec. Gull is a general purpose neural audio compression and decompression model which can be applied to a wide range of tasks and applications such as real-time communication, audio super-resolution, and codec language models. The key components of Gull include (1) universal-sample-rate modeling via subband modeling schemes motivated by recent progress in audio source separation, (2) gain-shape representations motivated by traditional audio codecs, (3) improved residual vector quantization modules for simpler training, (4) elastic decoder network that enables user-defined model size and complexity during inference time, (5) built-in ability for audio super-resolution without the increase of bitrate. We compare Gull with existing traditional and neural audio codecs and show that Gull is able to achieve on par or better performance across various sample rates, bitrates and model complexities in both subjective and objective evaluation metrics.
翻訳日:2024-04-09 18:22:15 公開日:2024-04-07
# Iniva: 包括的でインセンティブに適合した投票集約

Iniva: Inclusive and Incentive-compatible Vote Aggregation ( http://arxiv.org/abs/2404.04948v1 )

ライセンス: Link先を確認
Arian Baloochestani, Hanish Gogada, Leander Jehl, Hein Meling, (参考訳) 多くのブロックチェーンプラットフォームは、スケーラビリティ、最終性、セキュリティのために委員会ベースのコンセンサスを使用している。 この合意スキームでは、委員会は、通常いくつかの投票フェーズを通じて、どのブロックがチェーンに追加されるかを決定する。 プラットフォームは通常、委員会の記録された投票を利用して、失敗を報償したり、罰したり、検出する。 一般的なアプローチは、ブロックプロジェクタがどの投票を含めるかを決め、攻撃の可能性への扉を開くことである。 例えば、悪意のある提案者は、対象とする委員会メンバーからの投票を省略することができ、結果として利益が失われ、最終的にはシステムから離脱する。 本稿では,インクルーシブでインセンティブに適合する投票アグリゲーション方式であるイニバについて述べる。 Inivaは慎重に選択されたフォールバックパスを持つツリーオーバーレイに依存しており、再設定や冗長性の追加を必要とせずに、プロセス障害に対して堅牢である。 分析の結果、Inivaは個々の投票を省略する機会を著しく減らし、多くの投票を省くのにかなりのコストがかかることがわかった。 さらに、実験結果から、Inivaは堅牢性、スケーラビリティ、合理的なスループットを享受しています。

Many blockchain platforms use committee-based consensus for scalability, finality, and security. In this consensus scheme, a committee decides which blocks get appended to the chain, typically through several voting phases. Platforms typically leverage the committee members' recorded votes to reward, punish, or detect failures. A common approach is to let the block proposer decide which votes to include, opening the door to possible attacks. For example, a malicious proposer can omit votes from targeted committee members, resulting in lost profits and, ultimately, their departure from the system. This paper presents Iniva, an inclusive and incentive-compatible vote aggregation scheme that prevents such vote omission attacks. Iniva relies on a tree overlay with carefully selected fallback paths, making it robust against process failures without needing reconfiguration or additional redundancy. Our analysis shows that Iniva significantly reduces the chance to omit individual votes while ensuring that omitting many votes incurs a significant cost. In addition, our experimental results show that Iniva enjoys robustness, scalability, and reasonable throughput.
翻訳日:2024-04-09 18:22:15 公開日:2024-04-07
# SilverSight: 適応意味空間学習に基づくマルチタスク中国語金融大言語モデル

SilverSight: A Multi-Task Chinese Financial Large Language Model Based on Adaptive Semantic Space Learning ( http://arxiv.org/abs/2404.04949v1 )

ライセンス: Link先を確認
Yuhang Zhou, Zeping Li, Siyu Tian, Yuchen Ni, Sen Liu, Guangnan Ye, Hongfeng Chai, (参考訳) 大規模言語モデル(LLM)は、様々な専門分野にまたがって適用されつつあり、これらの領域における様々なシナリオの強化にその広範な知識を活用している。 しかし、各分野は学習を必要とする様々な特定のタスクを包含しており、これらの領域にまたがる多様で異質なデータは、モデルタスクの転送中に衝突を引き起こす可能性がある。 この課題に対応するために,本研究では,意味空間内のデータ分布の適応的再編成を利用して,マルチエキスパートモデルの性能と選択効率を向上させる適応意味空間学習(ASSL)フレームワークを提案する。 この枠組みを利用して、我々は"SilverSight"という金融マルチタスク LLM を訓練した。 研究結果から,本フレームワークはデータの10%に過ぎず,完全なデータトレーニングで得られた結果に近い結果が得られるとともに,強力な一般化能力を示すことがわかった。

Large language models (LLMs) are increasingly being applied across various specialized fields, leveraging their extensive knowledge to empower a multitude of scenarios within these domains. However, each field encompasses a variety of specific tasks that require learning, and the diverse, heterogeneous data across these domains can lead to conflicts during model task transfer. In response to this challenge, our study introduces an Adaptive Semantic Space Learning (ASSL) framework, which utilizes the adaptive reorganization of data distributions within the semantic space to enhance the performance and selection efficacy of multi-expert models. Utilizing this framework, we trained a financial multi-task LLM named "SilverSight". Our research findings demonstrate that our framework can achieve results close to those obtained with full data training using only 10% of the data, while also exhibiting strong generalization capabilities.
翻訳日:2024-04-09 18:22:15 公開日:2024-04-07
# 仮想実験室がサイバーセキュリティ遠隔教育におけるアクティブラーニングとエンゲージメントに及ぼす影響

The Impact of Virtual Laboratories on Active Learning and Engagement in Cybersecurity Distance Education ( http://arxiv.org/abs/2404.04952v1 )

ライセンス: Link先を確認
Victor R. Kebande, (参考訳) V Labs(Virtual Laboratories)は近年,特にサイバーセキュリティの遠隔コースにおいて,実践的な実践的アプローチによる遠隔教育の一助となりつつある。 彼らの潜在能力は、地理的な場所に関係なく、実践的な実験を実践する学習者を支援することを目的としている。 それにもかかわらず、高等教育における実践的アプローチにおけるV Labsの採用は、メリットとデメリットの両方を見出している。 この前提に基づき,サイバーセキュリティ遠隔教育におけるV Labsのアクティブラーニング(AL)とエンゲージメントへの影響について検討した。 V Labsを実践的なLabの課題に活用したサイバーセキュリティ距離コースを経験した少数の学習者や教育者による調査は、スウェーデンのBlekinge Tekniska H\"ogskolaで行われ、V LabsがALとサイバーセキュリティ遠隔教育への関与に与える影響を評価した。 29%, 教育者の73%が, Cronbalch Alphaをベースとした質問紙内部の整合性が良好であった。 この研究の鍵となるのは、V Labsを用いた場合のALとエンゲージメントと問題解決能力である。 学習者も教育者も、V Labsがサイバーセキュリティの概念の理解を深める上で、エンゲージメント、インタラクティブ、効果的であることに気付きました。

Virtual Laboratories (V Labs) have in the recent past become part and parcel of remote teaching in practical hands-on approaches, particularly in Cybersecurity distance courses. Their potential is meant to assist learners with hands-on practical laboratory exercises irrespective of geographical location. Nevertheless, adopting V Labs in didactic approaches in higher education has seen both merits and demerits. Based on this premise, this study investigates the impact of V Labs on Active Learning (AL) and engagement in cybersecurity distance education. A survey with a limited number of learners and educators who have had an experience with cybersecurity distance courses that leveraged V Labs in their practical Lab assignment, was conducted at Blekinge Tekniska H\"ogskola, Sweden, to assess the impact of V Labs on AL and engagement in Cybersecurity Distance Education. 29% and 73% of the learners and educators, respectively responded to the survey administered remotely and with good internal consistency of questionnaires based on the Cronbalch Alpha; the results showed that learners and educators had a positive perception of using V Labs to enhance AL in cybersecurity distance education. The key concentration of the study was on AL and engagement and problem-solving abilities when V Labs are used. Both the learners and educators found the V Labs to be engaging, interactive, and effective in improving their understanding of cybersecurity concepts.
翻訳日:2024-04-09 18:22:15 公開日:2024-04-07
# 一般化ゼロショット学習のための高識別属性特徴学習

High-Discriminative Attribute Feature Learning for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2404.04953v1 )

ライセンス: Link先を確認
Yu Lei, Guoshuai Sheng, Fangfang Li, Quanxue Gao, Cheng Deng, Qin Li, (参考訳) ゼロショット学習(ZSL)は、観察されたクラスからのセマンティック知識に依存して、サンプルを事前に露出せずに新しいクラスを認識することを目的としている。 しかし、現在の注意に基づくモデルは、画像の局所的特徴を学習する際に、視覚的特徴の伝達可能性や属性の局所化の特異性を見落としてしまう可能性がある。 さらに、それらはしばしば異なるオブジェクト間の共有属性を見落とします。 高度に識別可能な属性特徴は、目に見えないクラスを識別し識別するために重要である。 これらの課題に対処するために,一般化ゼロショット学習(HDAFL)のための高識別属性特徴学習(High-Discriminative Attribute Feature Learning)という革新的な手法を提案する。 HDAFLは属性の特徴を学習することで視覚的特徴を最適化し、識別的な視覚的埋め込みを得る。 具体的には、HDAFLは複数の畳み込みカーネルを使用して、画像の特徴と高い相関性を持つ識別領域を自動的に学習し、画像特徴の無関係な干渉を排除している。 さらに、属性間の識別能力を高めるために、Transformerベースの属性識別エンコーダを導入する。 同時に、この手法は、データセットバイアスを緩和し、視覚的特徴の伝達可能性を高めるために、対照的な損失を用いる。 実験により、広く使われている3つのデータセットにおけるHDAFLの有効性が示された。

Zero-shot learning(ZSL) aims to recognize new classes without prior exposure to their samples, relying on semantic knowledge from observed classes. However, current attention-based models may overlook the transferability of visual features and the distinctiveness of attribute localization when learning regional features in images. Additionally, they often overlook shared attributes among different objects. Highly discriminative attribute features are crucial for identifying and distinguishing unseen classes. To address these issues, we propose an innovative approach called High-Discriminative Attribute Feature Learning for Generalized Zero-Shot Learning (HDAFL). HDAFL optimizes visual features by learning attribute features to obtain discriminative visual embeddings. Specifically, HDAFL utilizes multiple convolutional kernels to automatically learn discriminative regions highly correlated with attributes in images, eliminating irrelevant interference in image features. Furthermore, we introduce a Transformer-based attribute discrimination encoder to enhance the discriminative capability among attributes. Simultaneously, the method employs contrastive loss to alleviate dataset biases and enhance the transferability of visual features, facilitating better semantic transfer between seen and unseen classes. Experimental results demonstrate the effectiveness of HDAFL across three widely used datasets.
翻訳日:2024-04-09 18:22:15 公開日:2024-04-07
# Gaussian Shading:拡散モデルのための予測可能なパフォーマンスロスレス画像透かし

Gaussian Shading: Provable Performance-Lossless Image Watermarking for Diffusion Models ( http://arxiv.org/abs/2404.04956v1 )

ライセンス: Link先を確認
Zijin Yang, Kai Zeng, Kejiang Chen, Han Fang, Weiming Zhang, Nenghai Yu, (参考訳) 著作権保護と不適切なコンテンツ生成に関する倫理的懸念は、拡散モデルの実践的な実装に課題をもたらす。 効果的な解決策の1つは、生成された画像の透かしである。 しかし、既存の手法はしばしばモデルの性能を損なうか、追加のトレーニングを必要とするが、オペレータやユーザにとっては望ましくない。 この問題に対処するため,我々は,著作権保護と違反コンテンツの追跡という2つの目的を兼ね備えつつ,パフォーマンスロスレスかつトレーニング不要な拡散モデル透かし手法であるGaussian Shadingを提案する。 我々の透かし埋め込みはモデルパラメータの修正が不要であり、プラグアンドプレイである。 非透かし拡散モデルから得られた潜時表現と区別できない標準ガウス分布に従って、透かしを潜時表現にマップする。 したがって、損失のない性能で透かしを埋め込むことができ、理論的に証明できる。 さらに、透かしは画像意味論と密接に結びついているので、損失処理や消去の試みに対するレジリエンスを示す。 透かしは拡散インプリシットモデル(DDIM)のインバージョンと逆サンプリングによって抽出できる。 安定拡散の複数バージョンにおけるガウス的シェーディングの評価を行い、ガウス的シェーディングは性能の欠如だけでなく、ロバスト性の観点からも既存手法よりも優れていることを示した。

Ethical concerns surrounding copyright protection and inappropriate content generation pose challenges for the practical implementation of diffusion models. One effective solution involves watermarking the generated images. However, existing methods often compromise the model performance or require additional training, which is undesirable for operators and users. To address this issue, we propose Gaussian Shading, a diffusion model watermarking technique that is both performance-lossless and training-free, while serving the dual purpose of copyright protection and tracing of offending content. Our watermark embedding is free of model parameter modifications and thus is plug-and-play. We map the watermark to latent representations following a standard Gaussian distribution, which is indistinguishable from latent representations obtained from the non-watermarked diffusion model. Therefore we can achieve watermark embedding with lossless performance, for which we also provide theoretical proof. Furthermore, since the watermark is intricately linked with image semantics, it exhibits resilience to lossy processing and erasure attempts. The watermark can be extracted by Denoising Diffusion Implicit Models (DDIM) inversion and inverse sampling. We evaluate Gaussian Shading on multiple versions of Stable Diffusion, and the results demonstrate that Gaussian Shading not only is performance-lossless but also outperforms existing methods in terms of robustness.
翻訳日:2024-04-09 18:22:15 公開日:2024-04-07
# 14km都市ファイバリンク上の量子ネットワークプロトコルの実証

Demonstration of quantum network protocols over a 14-km urban fiber link ( http://arxiv.org/abs/2404.04958v1 )

ライセンス: Link先を確認
Stephan Kucera, Christian Haen, Elena Arenskötter, Tobias Bauer, Jonas Meiers, Marlon Schäfer, Ross Boland, Milad Yahyapour, Maurice Lessing, Ronald Holzwarth, Christoph Becher, Jürgen Eschner, (参考訳) 本報告では,14.4kmの都市暗繊維リンク上での量子エンタングルメント分布と量子状態テレポーテーションの実装について報告する。 本稿では,量子チャネルとしての利用を特徴付けるとともに,そのアクティブ偏光安定化を実現する。 タイプIIのキャビティ強化SPDC光子対源、$^{40}$Ca$^{+}の単一イオン量子メモリ、およびテレコムCバンドへの量子周波数変換を用いて、光子-光子絡み、イオン-光子絡み、および、イオンから遠隔通信光子への量子ビット状態のテレポーテーションを、都市ファイバリンクを通じて実現した。

We report on the implementation of quantum entanglement distribution and quantum state teleportation over a 14.4-km urban dark-fiber link, which is partially underground, partially overhead, and patched in several stations. We characterize the link for its use as a quantum channel and realize its active polarization stabilization. Using a type-II cavity-enhanced SPDC photon pair source, a $^{40}$Ca$^{+}$ single-ion quantum memory, and quantum frequency conversion to the telecom C-band, we demonstrate photon-photon entanglement, ion-photon entanglement, and teleportation of a qubit state from the ion onto a remote telecom photon, all realized over the urban fiber link.
翻訳日:2024-04-09 18:22:15 公開日:2024-04-07
# 関係抽出のための2次元特徴工学手法

A Two Dimensional Feature Engineering Method for Relation Extraction ( http://arxiv.org/abs/2404.04959v1 )

ライセンス: Link先を確認
Hao Wang, Yanping Chen, Weizhe Yang, Yongbin Qin, Ruizhang Huang, (参考訳) 文を2次元(2D)表現に変換する(例:テーブルフィリング)と意味平面を展開させる能力があり、平面の要素が2つの名前のエンティティからなる可能な関係表現を表す文のワードペア表現である。 2D表現は重なり合った関係インスタンスの解決に有効である。 しかし、関連する作品では、表現は生の入力から直接変換される。 先行知識を活用することは弱く、関係抽出作業を支援することが重要である。 本稿では,関係抽出のための2次元文表現における2次元特徴工学手法を提案する。 提案手法は,3つの公開データセット(ACE05中国語,ACE05英語,SanWen)で評価し,最先端の性能を実現する。 その結果,2次元特徴工学は2次元文表現を生かし,従来の特徴工学における先行知識をフル活用できることが示唆された。 私たちのコードはhttps://github.com/Wang-ck123/A-Two-dimensional-Feature-Engineering-Method-for-Entity-Relation-Extra ctionで公開されています。

Transforming a sentence into a two-dimensional (2D) representation (e.g., the table filling) has the ability to unfold a semantic plane, where an element of the plane is a word-pair representation of a sentence which may denote a possible relation representation composed of two named entities. The 2D representation is effective in resolving overlapped relation instances. However, in related works, the representation is directly transformed from a raw input. It is weak to utilize prior knowledge, which is important to support the relation extraction task. In this paper, we propose a two-dimensional feature engineering method in the 2D sentence representation for relation extraction. Our proposed method is evaluated on three public datasets (ACE05 Chinese, ACE05 English, and SanWen) and achieves the state-of-the-art performance. The results indicate that two-dimensional feature engineering can take advantage of a two-dimensional sentence representation and make full use of prior knowledge in traditional feature engineering. Our code is publicly available at https://github.com/Wang-ck123/A-Two-Dimensional-Feature-Engineering-Method-for-Entity-Relation-Extra ction
翻訳日:2024-04-09 18:22:15 公開日:2024-04-07
# PairAug: 画像・テキスト・ペアは放射線学に何ができるのか?

PairAug: What Can Augmented Image-Text Pairs Do for Radiology? ( http://arxiv.org/abs/2404.04960v1 )

ライセンス: Link先を確認
Yutong Xie, Qi Chen, Sinuo Wang, Minh-Son To, Iris Lee, Ee Win Khoo, Kerolos Hendy, Daniel Koh, Yong Xia, Qi Wu, (参考訳) 現在の視覚言語事前学習(VLP)手法は、プライバシの考慮とラベル付けの複雑さにより、放射線学において取得が困難である、ペア画像テキストデータセットに大きく依存している。 データ拡張は、データ不足の問題を克服するための実用的な解決策を提供するが、ほとんどの拡張方法は、画像またはテキストの拡張のみを優先して、限定的な焦点を示す。 本研究の目的は,医用画像とテキストデータを同時に拡張できるフレームワークを開発することである。 Pairwise Augmentation (PairAug) アプローチを設計し, インターAug (InterAug) ブランチとIntraAug (IntraAug) ブランチを含む。 特に,本手法のInterAugブランチは,Large Language Model (LLM) から得られた合成可能かつ可塑性なレポートを用いて,放射線画像を生成する。 生成されたペアは、人工的に作成され、元のデータセットには存在しないため、新しい患者の集合と見なすことができる。 対照的に、IntraAugブランチは新たに生成されたレポートを使用して画像を操作する。 このプロセスにより、さまざまな医療状況の個人に対して、新たなペアデータを作成することができます。 医用画像分類のゼロショット化と微調整分析を対象とし, 画像データとテキストデータの両方を同時に拡張したPairAugが, 画像/テキストのみの拡張ベースラインと高度な医用VLPベースラインを大幅に上回っていることを示す。 私たちのコードは \url{https://github.com/YtongXie/PairAug} でリリースされています。

Current vision-language pre-training (VLP) methodologies predominantly depend on paired image-text datasets, a resource that is challenging to acquire in radiology due to privacy considerations and labelling complexities. Data augmentation provides a practical solution to overcome the issue of data scarcity, however, most augmentation methods exhibit a limited focus, prioritising either image or text augmentation exclusively. Acknowledging this limitation, our objective is to devise a framework capable of concurrently augmenting medical image and text data. We design a Pairwise Augmentation (PairAug) approach that contains an Inter-patient Augmentation (InterAug) branch and an Intra-patient Augmentation (IntraAug) branch. Specifically, the InterAug branch of our approach generates radiology images using synthesised yet plausible reports derived from a Large Language Model (LLM). The generated pairs can be considered a collection of new patient cases since they are artificially created and may not exist in the original dataset. In contrast, the IntraAug branch uses newly generated reports to manipulate images. This process allows us to create new paired data for each individual with diverse medical conditions. Our extensive experiments on various downstream tasks covering medical image classification zero-shot and fine-tuning analysis demonstrate that our PairAug, concurrently expanding both image and text data, substantially outperforms image-/text-only expansion baselines and advanced medical VLP baselines. Our code is released at \url{https://github.com/YtongXie/PairAug}.
翻訳日:2024-04-09 18:22:15 公開日:2024-04-07
# プログラム解析によるハード・ツー・クオーバ分岐のLCMによるテスト生成の強化

Enhancing LLM-based Test Generation for Hard-to-Cover Branches via Program Analysis ( http://arxiv.org/abs/2404.04966v1 )

ライセンス: Link先を確認
Chen Yang, Junjie Chen, Bin Lin, Jianyi Zhou, Ziqi Wang, (参考訳) 自動テスト生成は、ソフトウェア品質保証において重要な役割を果たす。 検索ベースソフトウェアテスト(SBST)とLarge Language Models(LLM)の最近の進歩は、有用なテストを生成する上で有望であることを示しているが、これらのテクニックは、まだ特定のブランチをカバーするのに苦労している。 これらの難解な分岐は、通常、複雑なオブジェクトの構築と、分岐条件における複雑なプロセス間の依存関係の解決を必要とします。 本研究では,これらの課題に対処するための新しい技術である TELPA を提案する。 その重要な洞察は、複雑なオブジェクトを構築する方法を学ぶために、テスト対象のメソッドの実際の使用シナリオを抽出することであり、分岐制約のセマンティクスを学ぶために、ハード・トゥ・カバーのブランチでプロシージャ間の依存関係を含むメソッドを抽出することである。 効率性と有効性を高めるため、TELPAはLLMの反例として非効率なテストのセットを特定し、これらの反例を反復的に洗練するためにフィードバックベースのプロセスを採用している。 TELPAはプログラム解析結果と反例をプロンプトに統合し、LLMを誘導し、ターゲットメソッドのセマンティクスをより深く理解し、難解な分岐に到達できる多様なテストを生成する。 27のオープンソースPythonプロジェクトでの実験結果から,TELPAは最先端のSBSTとLLMベースの技術よりも優れており,ブランチカバレッジでは平均31.39%,22.22%の改善が達成されている。

Automatic test generation plays a critical role in software quality assurance. While the recent advances in Search-Based Software Testing (SBST) and Large Language Models (LLMs) have shown promise in generating useful tests, these techniques still struggle to cover certain branches. Reaching these hard-to-cover branches usually requires constructing complex objects and resolving intricate inter-procedural dependencies in branch conditions, which poses significant challenges for existing test generation techniques. In this work, we propose TELPA, a novel technique aimed at addressing these challenges. Its key insight lies in extracting real usage scenarios of the target method under test to learn how to construct complex objects and extracting methods entailing inter-procedural dependencies with hard-to-cover branches to learn the semantics of branch constraints. To enhance efficiency and effectiveness, TELPA identifies a set of ineffective tests as counter-examples for LLMs and employs a feedback-based process to iteratively refine these counter-examples. Then, TELPA integrates program analysis results and counter-examples into the prompt, guiding LLMs to gain deeper understandings of the semantics of the target method and generate diverse tests that can reach the hard-to-cover branches. Our experimental results on 27 open-source Python projects demonstrate that TELPA significantly outperforms the state-of-the-art SBST and LLM-based techniques, achieving an average improvement of 31.39% and 22.22% in terms of branch coverage.
翻訳日:2024-04-09 18:22:15 公開日:2024-04-07
# 進化グラフにおける時間的一般化推定

Temporal Generalization Estimation in Evolving Graphs ( http://arxiv.org/abs/2404.04969v1 )

ライセンス: Link先を確認
Bin Lu, Tingyan Ma, Xiaoying Gan, Xinbing Wang, Yunqiang Zhu, Chenghu Zhou, Shiyu Liang, (参考訳) グラフニューラルネットワーク(GNN)は広い分野に広くデプロイされているが、グラフが進化するにつれて正確な表現を維持するのに苦労することが多い。 理論的には下界を確立し、穏やかな条件下では、表現歪みが時間の経過とともに必然的に起こることを証明した。 デプロイ後,人間のアノテーションを使わずに時間歪みを推定するには,デプロイ前に繰り返しモデル(例えばRNN)を事前トレーニングし,その後でこのモデルを使用すればよいが,その推定は十分ではない。 本稿では,情報理論の観点から表現歪みを解析し,進化過程における特徴抽出の不正確さを主因とする。 そこで我々は,自己教師付きグラフ再構成により適応的特徴抽出器によって強化された,単純で効果的なベースラインであるSmartを導入する。 合成ランダムグラフでは、時間とともに避けられない歪みを示すために、前者の下界をさらに洗練し、Smartが優れた推定性能を達成することを実証的に観察する。 さらに、我々は4つの実世界の進化グラフに対して、Smartが卓越した一般化推定を一貫して示すことを観察した。 アブレーション研究は、グラフ再構成の必要性を浮き彫りにした。 例えば、OGB-arXivデータセットでは、推定基準MAPEは再構成なしで2.19%から8.00%に劣化する。

Graph Neural Networks (GNNs) are widely deployed in vast fields, but they often struggle to maintain accurate representations as graphs evolve. We theoretically establish a lower bound, proving that under mild conditions, representation distortion inevitably occurs over time. To estimate the temporal distortion without human annotation after deployment, one naive approach is to pre-train a recurrent model (e.g., RNN) before deployment and use this model afterwards, but the estimation is far from satisfactory. In this paper, we analyze the representation distortion from an information theory perspective, and attribute it primarily to inaccurate feature extraction during evolution. Consequently, we introduce Smart, a straightforward and effective baseline enhanced by an adaptive feature extractor through self-supervised graph reconstruction. In synthetic random graphs, we further refine the former lower bound to show the inevitable distortion over time and empirically observe that Smart achieves good estimation performance. Moreover, we observe that Smart consistently shows outstanding generalization estimation on four real-world evolving graphs. The ablation studies underscore the necessity of graph reconstruction. For example, on OGB-arXiv dataset, the estimation metric MAPE deteriorates from 2.19% to 8.00% without reconstruction.
翻訳日:2024-04-09 18:22:15 公開日:2024-04-07
# マルチビュークラスタリングにおけるインプレクションの特徴付け

How to characterize imprecision in multi-view clustering? ( http://arxiv.org/abs/2404.04970v1 )

ライセンス: Link先を確認
Jinyi Xu, Zuowei Zhang, Ze Lin, Yixiang Chen, Zhe Liu, Weiping Ding, (参考訳) 既存のメソッドでは、異なるビュー情報を組み合わせる際にのみ、特定の(シングルトン)クラスタにオブジェクトを割り当てることができるため、マルチビューデータのクラスタ化は依然として困難である。 その結果、異なるクラスタの重なり合う領域におけるオブジェクトのインプレクションを特徴付けることができず、エラーのリスクが高くなる。 そこで,本稿では,マルチビュークラスタリングにおける不正確性をどう特徴付けるか,という疑問に答えたい。 そこで本研究では,エントロピー制約(MvLRECM)に基づく多視点低ランクのc-meansを提案する。 提案したMvLRECMは、信念関数の理論に基づく明らかなc-平均の多視点版とみなすことができる。 MvLRECMでは、各オブジェクトは様々な支持度(信念の質量)を持つ異なるクラスタに属し、意思決定時の不確実性を特徴づける。 さらに、オブジェクトが複数のシングルトンクラスタの重なり合う領域にある場合、これらのシングルトンクラスタの結合として定義されたメタクラスタに割り当てられ、その結果の局所的なインプレクションを特徴づけることができる。 さらに、エントロピー重み付けと低ランク制約を用いて、インプレクションの低減と精度の向上を図る。 最先端の手法と比較して,MvLRECMの有効性は,いくつかの玩具およびUCI実データに基づいて示される。

It is still challenging to cluster multi-view data since existing methods can only assign an object to a specific (singleton) cluster when combining different view information. As a result, it fails to characterize imprecision of objects in overlapping regions of different clusters, thus leading to a high risk of errors. In this paper, we thereby want to answer the question: how to characterize imprecision in multi-view clustering? Correspondingly, we propose a multi-view low-rank evidential c-means based on entropy constraint (MvLRECM). The proposed MvLRECM can be considered as a multi-view version of evidential c-means based on the theory of belief functions. In MvLRECM, each object is allowed to belong to different clusters with various degrees of support (masses of belief) to characterize uncertainty when decision-making. Moreover, if an object is in the overlapping region of several singleton clusters, it can be assigned to a meta-cluster, defined as the union of these singleton clusters, to characterize the local imprecision in the result. In addition, entropy-weighting and low-rank constraints are employed to reduce imprecision and improve accuracy. Compared to state-of-the-art methods, the effectiveness of MvLRECM is demonstrated based on several toy and UCI real datasets.
翻訳日:2024-04-09 16:22:29 公開日:2024-04-07
# FPL+:3次元医用画像セグメンテーションのための擬似ラベルを用いた教師なしクロスモーダル適応

FPL+: Filtered Pseudo Label-based Unsupervised Cross-Modality Adaptation for 3D Medical Image Segmentation ( http://arxiv.org/abs/2404.04971v1 )

ライセンス: Link先を確認
Jianghao Wu, Dong Guo, Guotai Wang, Qiang Yue, Huijun Yu, Kang Li, Shaoting Zhang, (参考訳) 医用画像セグメンテーションモデルを新しい領域に適応させることは、ドメイン間の転送性を向上させる上で重要である。 既存のUDA法は主に正則化のための画像や特徴のアライメントに基づいており、対象領域の監督が不十分なため制限されている。 本稿では,FPL+に基づく3次元医用画像分割のための拡張型フィルタ擬似ラベル (FPL+) を提案する。 まず、ソースドメイン内のラベル付き画像を、擬似ソースドメインセットと擬似ターゲットドメインセットからなる二重ドメイントレーニングセットに変換するために、クロスドメインデータ拡張を使用する。 ドメイン固有のバッチ正規化レイヤは、二重ドメイン拡張画像を利用して擬似ラベル生成を訓練するために、ドメイン不変構造の特徴を学習しながらドメインシフトに対処し、ターゲットドメイン画像の高品質な擬似ラベルを生成する。 次に、ラベル付きソースドメインイメージとターゲットドメインイメージを擬似ラベルと組み合わせて最終セグメンタを訓練し、不確実性推定に基づく画像レベルの重み付けと二重領域のコンセンサスに基づく画素レベルの重み付けを提案し、ノイズのある擬似ラベルの悪影響を軽減する。 前庭神経腫瘍,脳腫瘍,全心臓セグメントの3つの公的マルチモーダルデータセットを用いた実験により,本手法は10種類の最先端UDA法を超越し,対象領域における完全教師あり学習よりも良好な結果が得られた。

Adapting a medical image segmentation model to a new domain is important for improving its cross-domain transferability, and due to the expensive annotation process, Unsupervised Domain Adaptation (UDA) is appealing where only unlabeled images are needed for the adaptation. Existing UDA methods are mainly based on image or feature alignment with adversarial training for regularization, and they are limited by insufficient supervision in the target domain. In this paper, we propose an enhanced Filtered Pseudo Label (FPL+)-based UDA method for 3D medical image segmentation. It first uses cross-domain data augmentation to translate labeled images in the source domain to a dual-domain training set consisting of a pseudo source-domain set and a pseudo target-domain set. To leverage the dual-domain augmented images to train a pseudo label generator, domain-specific batch normalization layers are used to deal with the domain shift while learning the domain-invariant structure features, generating high-quality pseudo labels for target-domain images. We then combine labeled source-domain images and target-domain images with pseudo labels to train a final segmentor, where image-level weighting based on uncertainty estimation and pixel-level weighting based on dual-domain consensus are proposed to mitigate the adverse effect of noisy pseudo labels. Experiments on three public multi-modal datasets for Vestibular Schwannoma, brain tumor and whole heart segmentation show that our method surpassed ten state-of-the-art UDA methods, and it even achieved better results than fully supervised learning in the target domain in some cases.
翻訳日:2024-04-09 16:22:29 公開日:2024-04-07
# ストミチャ洞窟における観光需要予測のためのニューラルネットワークモデリング : セルビアの洞窟観光研究

Neural Network Modeling for Forecasting Tourism Demand in Stopića Cave: A Serbian Cave Tourism Study ( http://arxiv.org/abs/2404.04974v1 )

ライセンス: Link先を確認
Buda Bajić, Srđan Milićević, Aleksandar Antić, Slobodan Marković, Nemanja Tomić, (参考訳) Stopi\'{c}a cave (Serbia) における訪問回数をモデル化するために、古典的自己回帰統合移動平均(ARIMA)モデル、機械学習(ML)メソッドのサポートベクター回帰(SVR)、古典的概念とML概念を組み合わせたハイブリッドなニューラルプロペス法を検討する。 最も正確な予測は、季節成分と時系列の増大傾向を含むNeuralPropethを用いて得られた。 さらに、非線形性は浅いニューラルネットワーク(NN)によってモデル化され、Google Trendsは外生変数として組み込まれている。 観光需要のモデル化は, 洞窟などの環境にやさしい場所において, 持続可能な観光利用戦略を確立できるため, 経営構造や意思決定者にとって非常に重要である。 このデータは、Stopi\'{c}a洞窟の観光需要に関する洞察と、セルビアで最も訪れた洞窟内での収容能力の問題に対処するための予備的なデータを提供した。

For modeling the number of visits in Stopi\'{c}a cave (Serbia) we consider the classical Auto-regressive Integrated Moving Average (ARIMA) model, Machine Learning (ML) method Support Vector Regression (SVR), and hybrid NeuralPropeth method which combines classical and ML concepts. The most accurate predictions were obtained with NeuralPropeth which includes the seasonal component and growing trend of time-series. In addition, non-linearity is modeled by shallow Neural Network (NN), and Google Trend is incorporated as an exogenous variable. Modeling tourist demand represents great importance for management structures and decision-makers due to its applicability in establishing sustainable tourism utilization strategies in environmentally vulnerable destinations such as caves. The data provided insights into the tourist demand in Stopi\'{c}a cave and preliminary data for addressing the issues of carrying capacity within the most visited cave in Serbia.
翻訳日:2024-04-09 16:22:29 公開日:2024-04-07
# 利得と損失の異なる非エルミート導波路系における量子ノイズと熱ノイズ

Quantum and thermal noise in coupled non-Hermitian waveguide systems with different models of gain and loss ( http://arxiv.org/abs/2404.04975v1 )

ライセンス: Link先を確認
Osmery Hernández, Iñigo Liberal, (参考訳) 非エルミタン(NH)フォトニクス系はゲインとロスを利用してナノフォトニクス技術の新たな方向を開く。 しかし、ゲイン/ロスと本質的に関連する量子ノイズと熱ノイズは、NH系の固有値/固有ベクトル構造と、その実用的なノイズ性能に影響を及ぼす。 本稿では、ゲインロス補償型NH導波路系において発生する雑音に対するゲインとロス機構の違いが与える影響を比較検討する。 その結果,固有値/固有ベクトル構造,ノイズパワー,光子統計,スクイーズにおける重要な違いが明らかになった。 同時に、利得損失補償、破れない相転移、固有ベクトル対の合体、導波路の長さによる雑音の線形スケーリングなどの普遍的な性質を同定する。 これらの結果は、NHシステムで発生するノイズに対するゲイン/ロス機構の影響について、よりグローバルな理解を与えてくれると信じている。

Non-Hermitian (NH) photonic systems leverage gain and loss to open new directions for nanophotonic technologies. However, the quantum and thermal noise intrinsically associated with gain/loss affects the eigenvalue/eigenvector structure of NH systems, as well as its practical noise performance. Here, we present a comparative analysis of the impact of different gain and loss mechanisms on the noise generated in gain-loss compensated NH waveguide systems. Our results highlight important differences in the eigenvalue/eigenvector structure, noise power, photon statistics and squeezing. At the same time, we identify some universal properties such as gain-loss compensation, broken to unbroken phase transitions, coalesce of pairs of eigenvectors, and linear scaling of the noise with the length of the waveguide. We believe that these results provide a more global understanding on the impact of the gain/loss mechanism on the noise generated in NH systems.
翻訳日:2024-04-09 16:22:29 公開日:2024-04-07
# 真空中における損失試料の量子電気力学:改良ランゲヴィン雑音定式化

Quantum electrodynamics of lossy samples in vacuum: modified Langevin noise formalism ( http://arxiv.org/abs/2404.04977v1 )

ライセンス: Link先を確認
Alessandro Ciattoni, (参考訳) 吸収を示す非有界マクロな媒体の電磁界の量子挙動はランゲヴィンノイズフォーマリズム (macroscopic quantum electrodynamics) によって適切に記述される。 一方、そのような定式化は、非有界な損失媒質において均質な平面波漸近挙動が排除される散乱モードを考慮していないため、真空中に置かれた有限サイズの損失物に適用した場合に矛盾する。 そのため、散乱モードを包含する改良されたランゲヴィン雑音定式化法が提案され、その整合性はいくつかの特定の測地で数値的に検証されている。 本稿では,Langevinノイズの定式化をマクロな媒体における電磁界の正準量子化から導出し,線形・不均一・磁気誘電体試料を含む任意のシナリオをモデル化した。 導出はハイゼンベルク図形の量子マックスウェル方程式から始まり、その公式な解は媒体アシスト場と散乱モードの重ね合わせとして現れる。 解析学的に、2つの場のそれぞれが特定のボゾン作用素の項で表現できることを証明し、電磁ハミルトニアンを対角化し、関連する準粒子がそれぞれ中助・散乱偏光子であることを示す。 我々の推論を裏付ける重要な要素は、ダイアディックグリーン関数の遠場振幅と散乱モードを連結する特異な積分関係であり、散乱モードを無限遠双極子点源によって生成されたフィールドとして同定し、厳密に導出、物理的に説明する。

Quantum behavior of the electromagnetic field in unbounded macroscopic media displaying absorption is properly described by the Langevin noise formalism (macroscopic quantum electrodynamics) where the field is assumed to be entirely produced by medium fluctuating sources via the dyadic Green's function. On the other hand, such formalism leads to inconsistencies when applied to finite-size lossy objects placed in vacuum since it does not take into account the scattering modes, whose homomeneous plane wave asymptotic behavior is ruled out in unbounded lossy media. Accordingly a modified Langevin noise formalism has been proposed to encompass the scattering modes and its consistency has been numerically validated in few specific geometries. In this paper we analytically derive the modified Langevin noise formalism from the enstablished canonical quantization of the electromagnetic field in macroscopic media, thus proving that it models any possible scenario involving linear, inhomegeneous and magnetodielectric samples. The derivation starts from quantum Maxwell equations in the Heisenberg picture together with their formal solution as the superposition of the medium assisted field and the scattering modes. We analytically prove that each of the two field parts can be expressed in term of particular bosonic operators, which in turn diagonalize the electromagnetic Hamiltonian and whose associated quasi-particles are medium assisted and scattering polaritons, respectively. The key ingredient underpinning our reasoning is a peculiar integral relation linking the far field amplitude of the dyadic Green's function and the scattering modes, relation we rigorously derive and physically explain by identifying the scattering modes as fields generated by infinitely far dipole point sources.
翻訳日:2024-04-09 16:22:29 公開日:2024-04-07
# CAVIAR: 正確な推論とロバスト推論のためのカテゴリ変数の埋め込み

CAVIAR: Categorical-Variable Embeddings for Accurate and Robust Inference ( http://arxiv.org/abs/2404.04979v1 )

ライセンス: Link先を確認
Anirban Mukherjee, Hannah Hanwen Chang, (参考訳) 社会科学の研究は、しばしば分類変数と結果の関係に頼っている。 本稿では,高次元空間における値を仮定するカテゴリ変数を埋め込む新しい手法であるCAVIARを紹介する。 我々の理論的および数値解析は、因果推論におけるそのような分類変数による課題を概説している。 具体的には、動的に変化し、スパースレベルが変化すると、ドンスカー条件に違反し、推定関数が厳密なガウス過程に収束しない。 まれなカテゴリーレベルの排除やLASSOのような原則付き変数選択モデルなど、伝統的なアプローチは不足している。 CAVIARはデータを低次元のグローバル座標系に埋め込む。 マッピングは構造化データと非構造化データの両方から導出することができ、次元の減少を通じて安定かつ堅牢な推定を保証できる。 消費者直接アパレル販売のデータセットでは、zipコードのような高次元のカテゴリ変数が簡潔に表現され、推論と分析が容易であることを示す。

Social science research often hinges on the relationship between categorical variables and outcomes. We introduce CAVIAR, a novel method for embedding categorical variables that assume values in a high-dimensional ambient space but are sampled from an underlying manifold. Our theoretical and numerical analyses outline challenges posed by such categorical variables in causal inference. Specifically, dynamically varying and sparse levels can lead to violations of the Donsker conditions and a failure of the estimation functionals to converge to a tight Gaussian process. Traditional approaches, including the exclusion of rare categorical levels and principled variable selection models like LASSO, fall short. CAVIAR embeds the data into a lower-dimensional global coordinate system. The mapping can be derived from both structured and unstructured data, and ensures stable and robust estimates through dimensionality reduction. In a dataset of direct-to-consumer apparel sales, we illustrate how high-dimensional categorical variables, such as zip codes, can be succinctly represented, facilitating inference and analysis.
翻訳日:2024-04-09 16:22:29 公開日:2024-04-07
# 弱い教師付き深層学習を用いた腫瘍生検からの原発性肝癌の分類

Primary liver cancer classification from routine tumour biopsy using weakly supervised deep learning ( http://arxiv.org/abs/2404.04983v1 )

ライセンス: Link先を確認
Aurélie Beaufrère, Nora Ouzir, Paul Emile Zafar, Astrid Laurent-Bellue, Miguel Albuquerque, Gwladys Lubuela, Jules Grégory, Catherine Guettier, Kévin Mondet, Jean-Christophe Pesquet, Valérie Paradis, (参考訳) 原発性肝癌(PLC)の診断は,特に生検および肝細胞胆管癌(cHCC-CCA)の合併で困難である。 弱教師付き学習法を用いて, 常駐型生検で自動的にPLCを分類した。 弱腫瘍/非腫瘍アノテーションは、Resnet18ニューラルネットワークをトレーニングするためのラベルとして機能し、ネットワークの最後の畳み込み層は、新しい腫瘍タイルの特徴を抽出するために使用された。 悪性腫瘍の正確なラベルの知識がなければ,教師なしクラスタリングアルゴリズムを適用した。 肝細胞癌 (HCC) と肝内胆管癌 (iCCA) の特異な特徴を同定した。 cHCC-CCAの特異な特徴は認められていないが、スライド内におけるHCCおよびiCCAタイルの同定は、原発性肝癌、特にcHCC-CCAの診断を促進する可能性がある。 方法と結果:166個のPLC生検をトレーニング,内部および外部のバリデーションセット,90,29,47のサンプルに分けた。 肝病理検査では, ヘマチン・エオシン・サフラン (HES) 染色画像 (WSI) について検討した。 腫瘍/非腫瘍領域に注釈を付けた後、256x256ピクセルのタイルがWSIから抽出され、ResNet18の訓練に使用された。 ネットワークは新しいタイルの特徴を抽出するために使われた。 その後、教師なしクラスタリングアルゴリズムが新しいタイル機能に適用された。 2クラスターモデルでは、クラスタ0と1が主にHCCとiCCAの組織学的特徴を含んでいた。 内的および外的検証セットにおける病理診断とモデル予測の一致は, 100% (11/11), 96% (25/26), 78% (7/9) および87% (13/15) であった。 cHCC-CCAでは,各クラスタから高い変動率のタイルが検出された(Cluster 0: 5-97%,Cluster 1: 2-94%)。

The diagnosis of primary liver cancers (PLCs) can be challenging, especially on biopsies and for combined hepatocellular-cholangiocarcinoma (cHCC-CCA). We automatically classified PLCs on routine-stained biopsies using a weakly supervised learning method. Weak tumour/non-tumour annotations served as labels for training a Resnet18 neural network, and the network's last convolutional layer was used to extract new tumour tile features. Without knowledge of the precise labels of the malignancies, we then applied an unsupervised clustering algorithm. Our model identified specific features of hepatocellular carcinoma (HCC) and intrahepatic cholangiocarcinoma (iCCA). Despite no specific features of cHCC-CCA being recognized, the identification of HCC and iCCA tiles within a slide could facilitate the diagnosis of primary liver cancers, particularly cHCC-CCA. Method and results: 166 PLC biopsies were divided into training, internal and external validation sets: 90, 29 and 47 samples. Two liver pathologists reviewed each whole-slide hematein eosin saffron (HES)-stained image (WSI). After annotating the tumour/non-tumour areas, 256x256 pixel tiles were extracted from the WSIs and used to train a ResNet18. The network was used to extract new tile features. An unsupervised clustering algorithm was then applied to the new tile features. In a two-cluster model, Clusters 0 and 1 contained mainly HCC and iCCA histological features. The diagnostic agreement between the pathological diagnosis and the model predictions in the internal and external validation sets was 100% (11/11) and 96% (25/26) for HCC and 78% (7/9) and 87% (13/15) for iCCA, respectively. For cHCC-CCA, we observed a highly variable proportion of tiles from each cluster (Cluster 0: 5-97%; Cluster 1: 2-94%).
翻訳日:2024-04-09 16:22:29 公開日:2024-04-07
# MLaKE: 大規模言語モデルのための多言語知識編集ベンチマーク

MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models ( http://arxiv.org/abs/2404.04990v1 )

ライセンス: Link先を確認
Zihao Wei, Jingcheng Deng, Liang Pang, Hanxing Ding, Huawei Shen, Xueqi Cheng, (参考訳) 大規模言語モデル(LLM)の広範な活用は、それらの固有のパラメータに埋め込まれた正確かつ現代的な知識にとって重要な必要性を浮き彫りにしている。 知識編集に関する既存の研究は、主に単言語シナリオに焦点を合わせ、多言語コンテキストと多言語推論によって提示される複雑さを無視している。 MLaKE(Multilingual Language Knowledge Editing)は,英語,中国語,日本語,フランス語,ドイツ語の5言語にまたがる知識編集手法の適応性を評価するために,4072のマルチホップと5360のシングルホップ質問からなる新しいベンチマークである。 MLaKEはウィキペディアから言語にまたがるファクトチェーンを集約し、LLMを使ってフリーフォームとマルチチョイスの両方で質問を生成する。 MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。 既存の知識編集手法は、他の言語と比較して英語のサンプルの方が高い成功率を示している。 しかし、その一般化能力は多言語実験に限られている。 特に、既存の知識編集手法は、異なる言語族に属する言語と比較して、同じ言語族に属する言語に対して比較的高い一般化を示すことが多い。 これらの結果は,MLaKEがベンチマークやソリューション開発に有用な資源になり得ることを願っている。

The extensive utilization of large language models (LLMs) underscores the crucial necessity for precise and contemporary knowledge embedded within their intrinsic parameters. Existing research on knowledge editing primarily concentrates on monolingual scenarios, neglecting the complexities presented by multilingual contexts and multi-hop reasoning. To address these challenges, our study introduces MLaKE (Multilingual Language Knowledge Editing), a novel benchmark comprising 4072 multi-hop and 5360 single-hop questions designed to evaluate the adaptability of knowledge editing methods across five languages: English, Chinese, Japanese, French, and German. MLaKE aggregates fact chains from Wikipedia across languages and utilizes LLMs to generate questions in both free-form and multiple-choice. We evaluate the multilingual knowledge editing generalization capabilities of existing methods on MLaKE. Existing knowledge editing methods demonstrate higher success rates in English samples compared to other languages. However, their generalization capabilities are limited in multi-language experiments. Notably, existing knowledge editing methods often show relatively high generalization for languages within the same language family compared to languages from different language families. These results underscore the imperative need for advancements in multilingual knowledge editing and we hope MLaKE can serve as a valuable resource for benchmarking and solution development.
翻訳日:2024-04-09 16:22:29 公開日:2024-04-07
# HMM安定化深層学習による効率的な手術ツール認識

Efficient Surgical Tool Recognition via HMM-Stabilized Deep Learning ( http://arxiv.org/abs/2404.04992v1 )

ライセンス: Link先を確認
Haifeng Wang, Hao Xu, Jun Wang, Jian Zhou, Ke Deng, (参考訳) 手術用ツールやアクション,フェーズを手術ビデオから認識することは,エキサイティングな臨床応用を伴うコンピュータビジョンにおいて重要な問題である。 この問題に対する既存のディープラーニングベースの手法は、個々の手術映像を、その依存を考慮せずに一連の独立した画像として処理するか、あるいはビデオフレームの依存をカウントするために複雑なディープラーニングモデルに依存するかのどちらかである。 本研究では,術中ビデオが比較的単純な意味構造を享受し,術中位相やツールの存在をコンパクトな隠れマルコフモデル(HMM)でモデル化できることを探索データ分析から明らかにした。 そこで本研究では,ツール存在検出のためのHMM安定化深層学習手法を提案する。 幅広い実験により、提案手法はトレーニングコストとランニングコストを低減し、興味のあるすべての手術ビデオが広範囲にラベル付けされていないシナリオでトレーニングデータを構築し、活用するためのより柔軟な方法をサポートすることが確認された。 これらの結果から,過度に複雑化したモデル構造を持つ一般的なディープラーニング手法はデータの非効率な利用に悩まされる可能性があり,深層学習と統計的学習の要素を賢く統合することで,競争性能,透過的解釈,便利なモデルトレーニングを同時に享受するより強力なアルゴリズムがもたらされることが示唆された。

Recognizing various surgical tools, actions and phases from surgery videos is an important problem in computer vision with exciting clinical applications. Existing deep-learning-based methods for this problem either process each surgical video as a series of independent images without considering their dependence, or rely on complicated deep learning models to count for dependence of video frames. In this study, we revealed from exploratory data analysis that surgical videos enjoy relatively simple semantic structure, where the presence of surgical phases and tools can be well modeled by a compact hidden Markov model (HMM). Based on this observation, we propose an HMM-stabilized deep learning method for tool presence detection. A wide range of experiments confirm that the proposed approaches achieve better performance with lower training and running costs, and support more flexible ways to construct and utilize training data in scenarios where not all surgery videos of interest are extensively labelled. These results suggest that popular deep learning approaches with over-complicated model structures may suffer from inefficient utilization of data, and integrating ingredients of deep learning and statistical learning wisely may lead to more powerful algorithms that enjoy competitive performance, transparent interpretation and convenient model training simultaneously.
翻訳日:2024-04-09 16:22:29 公開日:2024-04-07
# 絶滅危惧動物と発見場所:二枚貝で海産動物を選別する

Fantastic Animals and Where to Find Them: Segment Any Marine Animal with Dual SAM ( http://arxiv.org/abs/2404.04996v1 )

ライセンス: Link先を確認
Pingping Zhang, Tianyu Yan, Yang Liu, Huchuan Lu, (参考訳) 海洋生物セグメンテーション(英: Marine Animal Segmentation、MAS)は、海洋生物を海洋環境に分割することを含む、海洋生物インテリジェンスの重要な柱である。 従来の手法では、長距離のコンテキスト特徴の抽出に優れておらず、個々のピクセル間の接続性を見落としている。 最近、Segment Anything Model (SAM) は一般的なセグメンテーションタスクのための普遍的なフレームワークを提供している。 残念なことに、SAMは自然画像の訓練を受けており、海洋画像から事前の知識を得られていない。 加えて、SAMの単一配置プロンプトは事前のガイダンスには不十分である。 これらの課題に対処するため,高性能MASのための新しい特徴学習フレームワークDual-SAMを提案する。 そこで本研究では,海洋画像の特徴学習を強化するために,SAMのパラダイムを用いた二重構造を導入する。 そこで我々は,包括的水中事前情報を指示し,SAMエンコーダのマルチレベル特徴をアダプタで強化するマルチレベル結合プロンプト(MCP)戦略を提案する。 その後,Dilated Fusion Attention Module (DFAM) を設計し,SAMエンコーダのマルチレベル機能を段階的に統合する。 最後に, 海洋生物のマスクを直接予測する代わりに, 離散画素間の接続性を捉えるためにCriss-Cross Connectivity Prediction (C$^3$P) パラダイムを提案する。 デュアルデコーダでは、擬似ラベルを生成し、補完的な特徴表現の相互監督を実現し、従来の手法よりも大幅に改善される。 広範に使われている5つのMASデータセット上で,提案手法が最先端の性能を達成することを実証した。 コードはhttps://github.com/Drchip61/Dual_SAMで公開されている。

As an important pillar of underwater intelligence, Marine Animal Segmentation (MAS) involves segmenting animals within marine environments. Previous methods don't excel in extracting long-range contextual features and overlook the connectivity between discrete pixels. Recently, Segment Anything Model (SAM) offers a universal framework for general segmentation tasks. Unfortunately, trained with natural images, SAM does not obtain the prior knowledge from marine images. In addition, the single-position prompt of SAM is very insufficient for prior guidance. To address these issues, we propose a novel feature learning framework, named Dual-SAM for high-performance MAS. To this end, we first introduce a dual structure with SAM's paradigm to enhance feature learning of marine images. Then, we propose a Multi-level Coupled Prompt (MCP) strategy to instruct comprehensive underwater prior information, and enhance the multi-level features of SAM's encoder with adapters. Subsequently, we design a Dilated Fusion Attention Module (DFAM) to progressively integrate multi-level features from SAM's encoder. Finally, instead of directly predicting the masks of marine animals, we propose a Criss-Cross Connectivity Prediction (C$^3$P) paradigm to capture the inter-connectivity between discrete pixels. With dual decoders, it generates pseudo-labels and achieves mutual supervision for complementary feature representations, resulting in considerable improvements over previous techniques. Extensive experiments verify that our proposed method achieves state-of-the-art performances on five widely-used MAS datasets. The code is available at https://github.com/Drchip61/Dual_SAM.
翻訳日:2024-04-09 16:22:29 公開日:2024-04-07
# ソフトプロンプト圧縮による効率的な文脈処理のためのLLMの適応

Adapting LLMs for Efficient Context Processing through Soft Prompt Compression ( http://arxiv.org/abs/2404.04997v1 )

ライセンス: Link先を確認
Cangqing Wang, Yutian Yang, Ruisi Li, Dan Sun, Ruicong Cai, Yuzhu Zhang, Chengqian Fu, Lillian Floyd, (参考訳) LLM(Large Language Models)の急速な進歩は、自然言語処理における変革的エポックを創出し、テキスト生成、理解、文脈の精査において前例のない熟練を育んでいる。 それでも、無数のアプリケーションにとって重要な、広範囲にわたるコンテキストを効果的に扱うことは、モデルのコンテキストウィンドウサイズとそれらの操作にかかわる計算上の負担の内在的な制約により、大きな障害となる。 本研究は, 自然言語要約, ソフトプロンプト圧縮, 拡張実用性保存機構の相乗効果を利用して, LLMを合理的な文脈処理のために戦略的に調整する枠組みを提案する。 我々の手法はSoftPromptCompと呼ばれ、自然言語は動的に生成されたソフトプロンプトで要約手法から抽出され、簡潔だが意味的に頑健な文脈の描写をフォージする。 この描写は、情報保持とその後のタスクの実用性を最適化する重み付け機構によってさらに洗練される。 我々は、我々のフレームワークが計算オーバーヘッドを著しく減らし、様々なベンチマークでLCMの有効性を高めつつ、生成したコンテンツの校正性を維持したり、強化したりすることを確認する。 ソフトプロンプト圧縮を高度に要約することで、SoftPromptCompは長いコンテキストを管理し、モデルのスケーラビリティを確保するという2つの課題に直面します。 我々の研究は、LLMの適用性と効率を向上し、現実の応用においてより多用途で実用的になるための提案的な軌道を向けている。 この研究は、言語モデルの最適化に関する現在進行中の談話を強化し、次世代のNLPソリューションのための重要な手段として、ソフトプロンプトと要約技術の有効性に関する洞察を提供する。

The rapid advancement of Large Language Models (LLMs) has inaugurated a transformative epoch in natural language processing, fostering unprecedented proficiency in text generation, comprehension, and contextual scrutiny. Nevertheless, effectively handling extensive contexts, crucial for myriad applications, poses a formidable obstacle owing to the intrinsic constraints of the models' context window sizes and the computational burdens entailed by their operations. This investigation presents an innovative framework that strategically tailors LLMs for streamlined context processing by harnessing the synergies among natural language summarization, soft prompt compression, and augmented utility preservation mechanisms. Our methodology, dubbed SoftPromptComp, amalgamates natural language prompts extracted from summarization methodologies with dynamically generated soft prompts to forge a concise yet semantically robust depiction of protracted contexts. This depiction undergoes further refinement via a weighting mechanism optimizing information retention and utility for subsequent tasks. We substantiate that our framework markedly diminishes computational overhead and enhances LLMs' efficacy across various benchmarks, while upholding or even augmenting the caliber of the produced content. By amalgamating soft prompt compression with sophisticated summarization, SoftPromptComp confronts the dual challenges of managing lengthy contexts and ensuring model scalability. Our findings point towards a propitious trajectory for augmenting LLMs' applicability and efficiency, rendering them more versatile and pragmatic for real-world applications. This research enriches the ongoing discourse on optimizing language models, providing insights into the potency of soft prompts and summarization techniques as pivotal instruments for the forthcoming generation of NLP solutions.
翻訳日:2024-04-09 16:22:29 公開日:2024-04-07
# 深部超球面量子化による画像検索

Weakly Supervised Deep Hyperspherical Quantization for Image Retrieval ( http://arxiv.org/abs/2404.04998v1 )

ライセンス: Link先を確認
Jinpeng Wang, Bin Chen, Qiang Zhang, Zaiqiao Meng, Shangsong Liang, Shu-Tao Xia, (参考訳) ディープ量子化法は大規模画像検索において高い効率性を示している。 しかし、現在のモデルは地平線情報に大きく依存しており、ラベル・ハングリーのシナリオにおける量子化の適用を妨げる。 より現実的な要求は、アマチュアユーザーが提供した非公式なタグに関連付けられた、不明瞭なアップロードイメージから学ぶことである。 このようなスケッチ的なタグは明らかにラベルを明らかにしないが、実際には深い量子化を監督するのに有用な意味情報を含んでいる。 この目的のために,弱タグ付き画像から深部量子化を学ぶ最初の研究であるWakly-Supervised Deep Hyperspherical Quantization (WSDHQ)を提案する。 具体的には 1) 単語埋め込みを用いてタグを表現し, タグ相関グラフに基づく意味情報を強化する。 2) 量子化符号のセマンティック情報をよりよく保存し, 量子化誤差を低減するために, よく設計された融合層とテーラーメードの損失関数を用いて, 超球面上のセマンティックス保存と教師付き量子化器を共同で学習する。 大規模な実験により、WSDHQは弱教師付きコンパクトコーディングにおける最先端の性能を達成できることが示された。 コードはhttps://github.com/gimpong/AAAI21-WSDHQで公開されている。

Deep quantization methods have shown high efficiency on large-scale image retrieval. However, current models heavily rely on ground-truth information, hindering the application of quantization in label-hungry scenarios. A more realistic demand is to learn from inexhaustible uploaded images that are associated with informal tags provided by amateur users. Though such sketchy tags do not obviously reveal the labels, they actually contain useful semantic information for supervising deep quantization. To this end, we propose Weakly-Supervised Deep Hyperspherical Quantization (WSDHQ), which is the first work to learn deep quantization from weakly tagged images. Specifically, 1) we use word embeddings to represent the tags and enhance their semantic information based on a tag correlation graph. 2) To better preserve semantic information in quantization codes and reduce quantization error, we jointly learn semantics-preserving embeddings and supervised quantizer on hypersphere by employing a well-designed fusion layer and tailor-made loss functions. Extensive experiments show that WSDHQ can achieve state-of-art performance on weakly-supervised compact coding. Code is available at https://github.com/gimpong/AAAI21-WSDHQ.
翻訳日:2024-04-09 16:22:29 公開日:2024-04-07
# 配向による磁場低減型携帯型ダイヤモンドメーザ

Portable diamond maser with reduced magnetic field through orientation ( http://arxiv.org/abs/2404.05000v1 )

ライセンス: Link先を確認
Wern Ng, Yongqiang Wen, Neil Alford, Daan M. Arroo, (参考訳) メーザーは、医療用センサーを変換し、超低ノイズ増幅によるキュービット読み出し検出を促進する可能性がある。 負電荷の窒素空洞(NV-)ダイヤモンドメーザーは、室温で発見された唯一の連続波固体メーザーであるが、より広範に使用されるのを防ぐために、大きくてかさばる磁石を必要とする。 より軽量で小型の電磁石を用いてダイヤモンドメーザー全体のサイズを著しく減らし,重量を2000キログラムから30キログラムに減らした。 我々は,最初の実装の10倍の80dBm付近で最大メイサー出力を実現し,スピン方向の精密な操作により,メイシングに必要な磁場強度を低減する技術を発見した。 ダイヤモンドのメーザーは、実験室のベンチトップに収まる大きさに縮まり、連続波の室温メーザーを研究施設から遠ざけ、量子コンピューティング、周波数標準、量子制限された医療センシングの読み出しに近づいた。

Masers have the potential to transform medical sensing and boost qubit readout detection due to their superb low-noise amplification. The negatively-charged nitrogen vacancy (NV-) diamond maser is the only continuous-wave solid-state maser discovered at room temperature, however it suffers from requiring large and bulky magnets which prevent its more widespread use. We present a significant reduction in size of the entire diamond maser using a much lighter and small-footprint electromagnet, reducing the weight from an immovable 2000 kilograms to a portable 30 kilograms. We achieve a maximum maser output power near -80 dBm, ten times higher than the first implementation, and have discovered techniques to reduce the magnetic field strength required for masing by precise manipulation of the spin orientation. With the diamond maser now shrunk to a size that can fit on a lab benchtop, we have brought continuous-wave room temperature masers away from the confines of research laboratories and closer to transforming readouts in quantum computing, frequency standards and quantum-limited medical sensing.
翻訳日:2024-04-09 16:22:29 公開日:2024-04-07
# 大規模単結晶イメージング用デュアルスケール変圧器

Dual-Scale Transformer for Large-Scale Single-Pixel Imaging ( http://arxiv.org/abs/2404.05001v1 )

ライセンス: Link先を確認
Gang Qu, Ping Wang, Xin Yuan, (参考訳) シングルピクセルイメージング(英: Single-Pixel Imaging, SPI)は、単画素検出器によって捕獲された少数の測定値から、画像を生成する潜在的な計算イメージング技術である。 深層学習はSPI再建において大きな成功を収めた。 しかし、以前の貧弱な再構成性能と非現実的なイメージングモデルは実世界の応用を制限した。 本稿では,HATNetと呼ばれるKronecker SPIモデル上でのハイブリッドアテンショントランスフォーマを用いた深部展開ネットワークを提案し,実際のSPIカメラの画質向上を図る。 具体的には,反復縮小保持アルゴリズム(ISTA)の計算グラフを,効率的なテンソル勾配降下法とハイブリッドアテンション型マルチスケール復調法という2つの代替モジュールに展開する。 Kronecker SPIにより、勾配降下モジュールはベクトル化されたSPIに基づいて、以前の勾配降下モジュールに根付いた高い計算オーバーヘッドを回避することができる。 このデノナイジングモジュールは,高周波・低周波アグリゲーションのための2次元空間アグリゲーションと,グローバル情報再構成のためのチャネルアグリゲーションを利用したエンコーダデコーダアーキテクチャである。 また,提案手法の有効性を検証するため,SPIプロトタイプを構築した。 合成および実データに対する大規模な実験により,本手法が最先端の性能を実現することを示す。 ソースコードと事前訓練されたモデルはhttps://github.com/Gang-Qu/HATNet-SPIで入手できる。

Single-pixel imaging (SPI) is a potential computational imaging technique which produces image by solving an illposed reconstruction problem from few measurements captured by a single-pixel detector. Deep learning has achieved impressive success on SPI reconstruction. However, previous poor reconstruction performance and impractical imaging model limit its real-world applications. In this paper, we propose a deep unfolding network with hybrid-attention Transformer on Kronecker SPI model, dubbed HATNet, to improve the imaging quality of real SPI cameras. Specifically, we unfold the computation graph of the iterative shrinkagethresholding algorithm (ISTA) into two alternative modules: efficient tensor gradient descent and hybrid-attention multiscale denoising. By virtue of Kronecker SPI, the gradient descent module can avoid high computational overheads rooted in previous gradient descent modules based on vectorized SPI. The denoising module is an encoder-decoder architecture powered by dual-scale spatial attention for high- and low-frequency aggregation and channel attention for global information recalibration. Moreover, we build a SPI prototype to verify the effectiveness of the proposed method. Extensive experiments on synthetic and real data demonstrate that our method achieves the state-of-the-art performance. The source code and pre-trained models are available at https://github.com/Gang-Qu/HATNet-SPI.
翻訳日:2024-04-09 16:22:29 公開日:2024-04-07
# プロフォーマにおけるコンピュータ解釈型ガイドラインのハイブリッド実行環境

A Hybrid Execution Environment for Computer-Interpretable Guidelines in PROforma ( http://arxiv.org/abs/2404.05011v1 )

ライセンス: Link先を確認
Alexandra Kogan, Roy Leizer, Szymon Wilk, David Glasspool, (参考訳) 本稿では,ProformaにおけるCIG(Computer-Interpretable Guidelines)のハイブリッド実行環境の開発経験について紹介する。 提案する環境は,がん患者のコーチングと医師の意思決定支援を提供するCAPABLEシステムの一部である。 標準の Proforma 実行エンジン - Deontics Engine (DE) - DE のラッパーとして機能し、非標準タスクの処理を可能にし、CAPABLE システムの他の部分との統合を容易にするコンポーネントを追加して拡張する。 これにより、標準エンジンと特殊なコンポーネントが相互に結合する層によってインターフェースされなければならないハイブリッド環境が得られる。 CAPABLEシステムでは、エンジンとコンポーネント間のインターフェースを指定するために、Proforma CIG内のデータやタスクにアタッチされた特別なメタプロパティのセットを定義することで実現されている。

In this paper, we share our experience of developing a hybrid execution environment for computer-interpretable guidelines (CIGs) in PROforma. The proposed environment is part of the CAPABLE system which provides coaching for cancer patients and decision support for physicians. It extends a standard PROforma execution engine - Deontics Engine (DE) - with additional components that act as wrappers around DE, allow handling of non-standard tasks, and facilitate integration with the rest of the CAPABLE system. This yields a hybrid environment in which the standard engine and specialized components must be interfaced together by some intervening layer. In the CAPABLE system this has been achieved by defining a set of specialized meta-properties which are attached to data and tasks in the PROforma CIGs to specify the interface between engine and components.
翻訳日:2024-04-09 16:22:29 公開日:2024-04-07
# 信頼性と共感的抑うつ-診断指向型チャット

Towards Reliable and Empathetic Depression-Diagnosis-Oriented Chats ( http://arxiv.org/abs/2404.05012v1 )

ライセンス: Link先を確認
Kunyao Lan, Cong Ming, Binwei Yao, Lu Chen, Mengyue Wu, (参考訳) チャットボットは、潜在的な患者との対話を通じて、うつ病を早期に診断するための有効なツールとして機能する。 それでも、診断関連対話におけるタスク指向とチャットの混在は、専門的な専門知識と共感を必要とする。 このようなユニークな要件は、単一の最適化目標を目標とする従来の対話フレームワークに挑戦する。 そこで本研究では,抑うつ診断対話に特化して機能する新しいオントロジー定義と生成フレームワークを提案し,タスク指向会話の信頼性と共感関連チャットの魅力を両立させる。 さらに、このフレームワークをうつ病診断指向チャットに関する唯一の公開対話データセットであるD$^4$に適用する。 抽出実験の結果,うつ病診断におけるタスク完了と感情的サポート生成の大幅な改善が示され,タスク指向の対話システム開発に対するより包括的なアプローチとそのデジタルメンタルヘルスへの応用が促進された。

Chatbots can serve as a viable tool for preliminary depression diagnosis via interactive conversations with potential patients. Nevertheless, the blend of task-oriented and chit-chat in diagnosis-related dialogues necessitates professional expertise and empathy. Such unique requirements challenge traditional dialogue frameworks geared towards single optimization goals. To address this, we propose an innovative ontology definition and generation framework tailored explicitly for depression diagnosis dialogues, combining the reliability of task-oriented conversations with the appeal of empathy-related chit-chat. We further apply the framework to D$^4$, the only existing public dialogue dataset on depression diagnosis-oriented chats. Exhaustive experimental results indicate significant improvements in task completion and emotional support generation in depression diagnosis, fostering a more comprehensive approach to task-oriented chat dialogue system development and its applications in digital mental health.
翻訳日:2024-04-09 16:12:43 公開日:2024-04-07
# 量子グラフにおける局所書き換え規則の体系的変化による金属絶縁体遷移の誘導

Inducing a Metal-Insulator Transition through Systematic Alterations of Local Rewriting Rules in a Quantum Graph ( http://arxiv.org/abs/2404.05013v1 )

ライセンス: Link先を確認
Richard Berkovits, (参考訳) 量子グラフにおけるアンダーソン局在化遷移は、多体ローカライゼーション研究との関係から、近年大きな注目を集めている。 通常、グラフはトップダウン方式で構築される。 本稿では,グラフ構築に局所的な書き換え規則を用いるボトムアップ手法について検討する。 エネルギースペクトルの比統計と固有状態のクルバック・リーブラー分散相関を用いて、数値解析により、書き換え規則に対する微調整が局所化から拡張量子相への遷移を誘導できることが示されている。 この拡張状態は、ポーター・ロセンツヴァイクモデルで観測された非エルゴード拡張相に似た非エルゴード的挙動を示し、多体局在を示唆した。 したがって、簡単な局所的な書き換え規則を適用することで、所望のグローバル量子位相が現れる複雑なグラフを組み立てることが可能となる。 このアプローチは数値的な研究を約束し、光ファイバーとビームスプリッタを用いた複雑なネットワークの光学的実現に応用できる。

The Anderson localization transition in quantum graphs has garnered significant recent attention due to its relevance to many-body localization studies. Typically, graphs are constructed using top-down methods. Here, we explore a bottom-up approach, employing a simple local rewriting rule to construct the graph. Through the use of ratio statistics for the energy spectrum and Kullback-Leibler divergence correlations for the eigenstates, numerical analysis demonstrates that slight adjustments to the rewriting rule can induce a transition from a localized to an extended quantum phase. This extended state exhibits non-ergodic behavior, akin to the non-ergodic extended phase observed in the Porter-Rosenzweig model and suggested for many-body localization. Thus, by adapting straightforward local rewriting rules, it becomes feasible to assemble complex graphs from which desired global quantum phases emerge. This approach holds promise for numerical investigations and could be implemented in building optical realizations of complex networks using optical fibers and beam splitters.
翻訳日:2024-04-09 16:12:42 公開日:2024-04-07
# MagicTime: メタモルフィックシミュレータとしてのタイムラプスビデオ生成モデル

MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators ( http://arxiv.org/abs/2404.05014v1 )

ライセンス: Link先を確認
Shenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, Jiebo Luo, (参考訳) 近年のテキスト・ツー・ビデオ・ジェネラル・ジェネラル・ビデオ(T2V)の進歩は,テキスト記述から高品質な汎用ビデオの合成において顕著な成功を収めている。 T2Vのほとんど見落とされた問題は、既存のモデルが現実世界の物理的知識を十分にエンコードしていないことである。 本稿では,実世界の物理知識をタイムラプスビデオから学習し,メタモルフィック生成を実装するメタモルフィック・タイムラプスビデオ生成モデルである \textbf{MagicTime} を提案する。 まず、空間的および時間的トレーニングを分離し、メタモルフィックビデオからより多くの物理知識をエンコードし、事前学習されたT2Vモデルを変換してメタモルフィックビデオを生成するMagicAdapterスキームを設計する。 第2に、動的フレーム抽出手法を導入し、より広い変動範囲を持ち、劇的なオブジェクトのメタモルフィックプロセスをカバーし、一般的なビデオよりも物理的な知識を具現化する。 最後に、メタモルフィックビデオプロンプトの理解を改善するためにMagic Text-Encoderを導入する。 さらに,メタモルフィックビデオ生成能力を解き放つために特別にキュレートされた,‘textbf{ChronoMagic}’というタイムラプスビデオテキストデータセットを作成する。 広汎な実験は、高品質でダイナミックなメタモルフィックビデオを生成するためにMagicTimeの優位性と有効性を実証し、物理世界のメタモルフィックシミュレータを構築するための、タイムラプスビデオ生成が有望な道であることを示唆している。

Recent advances in Text-to-Video generation (T2V) have achieved remarkable success in synthesizing high-quality general videos from textual descriptions. A largely overlooked problem in T2V is that existing models have not adequately encoded physical knowledge of the real world, thus generated videos tend to have limited motion and poor variations. In this paper, we propose \textbf{MagicTime}, a metamorphic time-lapse video generation model, which learns real-world physics knowledge from time-lapse videos and implements metamorphic generation. First, we design a MagicAdapter scheme to decouple spatial and temporal training, encode more physical knowledge from metamorphic videos, and transform pre-trained T2V models to generate metamorphic videos. Second, we introduce a Dynamic Frames Extraction strategy to adapt to metamorphic time-lapse videos, which have a wider variation range and cover dramatic object metamorphic processes, thus embodying more physical knowledge than general videos. Finally, we introduce a Magic Text-Encoder to improve the understanding of metamorphic video prompts. Furthermore, we create a time-lapse video-text dataset called \textbf{ChronoMagic}, specifically curated to unlock the metamorphic video generation ability. Extensive experiments demonstrate the superiority and effectiveness of MagicTime for generating high-quality and dynamic metamorphic videos, suggesting time-lapse video generation is a promising path toward building metamorphic simulators of the physical world.
翻訳日:2024-04-09 16:12:42 公開日:2024-04-07
# 観測・インターベンショナルベルの不等式

Observational-Interventional Bell Inequalities ( http://arxiv.org/abs/2404.05015v1 )

ライセンス: Link先を確認
Davide Poderini, Ranieri Nery, George Moreno, Santiago Zamora, Pedro Lauand, Rafael Chaves, (参考訳) ベルの定理の一般化、特に量子ネットワーク内の一般化は、現在では因果推論レンズを通して分析されている。 しかし、因果関係論の中心的な概念である介入の探索は、いまだに未解明のままである。 本研究は,観測データと干渉データを統合した新たなハイブリッドベル不等式を提案することで,この方向への一歩を踏み出したものである。 任意の入力のバイナリ結果に着目して、異なる量子実験を記述するにもかかわらず、ハーディのようなベルの不等式と等価な観測-干渉ポリトープの完全な特徴づけを得る。 その応用を説明するために、量子違反に対するしきい値検出効率に関する顕著な向上を示すとともに、これらのハイブリッドアプローチを量子ステアリングのシナリオに用いていることを示す。

Generalizations of Bell's theorem, particularly within quantum networks, are now being analyzed through the causal inference lens. However, the exploration of interventions, a central concept in causality theory, remains significantly unexplored. In this work we give an initial step in this direction, by analyzing the instrumental scenario and proposing novel hybrid Bell inequalities integrating observational and interventional data. Focusing on binary outcomes with any number of inputs, we obtain the complete characterization of the observational-interventional polytope, equivalent to a Hardy-like Bell inequality albeit describing a distinct quantum experiment. To illustrate its applications, we show a significant enhancement regarding threshold detection efficiencies for quantum violations also showing the use of these hybrid approach in quantum steering scenarios.
翻訳日:2024-04-09 16:12:42 公開日:2024-04-07
# オープンワールド検出のための合成キャプションを用いた双曲学習

Hyperbolic Learning with Synthetic Captions for Open-World Detection ( http://arxiv.org/abs/2404.05016v1 )

ライセンス: Link先を確認
Fanjie Kong, Yanbei Chen, Jiarui Cai, Davide Modolo, (参考訳) オープンワールド検出は、オブジェクトクラスラベルまたはフリーフォームテキストを使用して任意のオブジェクトを検出する必要があるため、大きな課題となる。 既存の関連作品では、大規模な手動注釈付きキャプションデータセットを使用してトレーニングを行うことが多いが、収集は非常に高価である。 代わりに、視覚言語モデル(VLM)から知識を移譲し、オープン語彙記述を自動的に強化することを提案する。 具体的には、予め訓練されたVLMを用いて高密度の合成キャプションをブートストラップし、画像の異なる領域について豊富な記述を提供し、これらのキャプションを組み込んで、新しい概念に一般化する新しい検出器を訓練する。 合成キャプションにおける幻覚によるノイズを軽減するために,視覚とキャプションの埋め込みの階層構造を付加する,新しい双曲型視覚言語学習手法を提案する。 私たちは検出器 ``HyperLearner' を呼び出します。 我々は,様々なオープンワールド検出ベンチマーク (COCO, LVIS, Object Detection in the Wild, RefCOCO) について広範な実験を行い,我々のモデルは,同じバックボーンを使用する場合,GLIP, GLIPv2, Grounding DINOなどの既存の最先端手法よりも一貫して優れていることを示した。

Open-world detection poses significant challenges, as it requires the detection of any object using either object class labels or free-form texts. Existing related works often use large-scale manual annotated caption datasets for training, which are extremely expensive to collect. Instead, we propose to transfer knowledge from vision-language models (VLMs) to enrich the open-vocabulary descriptions automatically. Specifically, we bootstrap dense synthetic captions using pre-trained VLMs to provide rich descriptions on different regions in images, and incorporate these captions to train a novel detector that generalizes to novel concepts. To mitigate the noise caused by hallucination in synthetic captions, we also propose a novel hyperbolic vision-language learning approach to impose a hierarchy between visual and caption embeddings. We call our detector ``HyperLearner''. We conduct extensive experiments on a wide variety of open-world detection benchmarks (COCO, LVIS, Object Detection in the Wild, RefCOCO) and our results show that our model consistently outperforms existing state-of-the-art methods, such as GLIP, GLIPv2 and Grounding DINO, when using the same backbone.
翻訳日:2024-04-09 16:12:42 公開日:2024-04-07
# ショートカット接続型エキスパート並列処理によるミックス・オブ・エクスプロイトの高速化

Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts ( http://arxiv.org/abs/2404.05019v1 )

ライセンス: Link先を確認
Weilin Cai, Juyong Jiang, Le Qin, Junwei Cui, Sunghun Kim, Jiayi Huang, (参考訳) エキスパート並列性は、スパースゲートのミックス・オブ・エキスパート(MoE)モデルの計算負荷を複数のコンピュータデバイスに分散させる戦略として導入され、これらの大規模モデルの実行が容易になった。 しかし、専門家の並列性に固有のオール・ツー・オール通信は、MoEモデルの効率を低下させる重要なオーバーヘッドとなっている。 現在の最適化アプローチは、いくつかの緩和を提供するが、それらは通信と計算操作の逐次的相互依存によって制約される。 この制限に対処するため、ScMoEとして指定された並列戦略を重畳した新しいショートカット接続型MoEアーキテクチャを提案する。 一般的なトップ2 MoEアーキテクチャと比較すると,PCIe と NVLink のハードウェア環境でのトレーニング速度の改善は 30% と 11% で,PCIe と NVLink のハードウェア環境では 40% と 15% で,通信が MoE の総消費の 60% と 15% を占めている。 一方、広範囲な実験と理論分析により、ScMoEは比較できるだけでなく、視覚や言語タスクにおける既存のアプローチのモデル品質を超える場合もあることが示されている。

Expert parallelism has been introduced as a strategy to distribute the computational workload of sparsely-gated mixture-of-experts (MoE) models across multiple computing devices, facilitating the execution of these increasingly large-scale models. However, the All-to-All communication intrinsic to expert parallelism constitutes a significant overhead, diminishing the MoE models' efficiency. Current optimization approaches offer some relief, yet they are constrained by the sequential interdependence of communication and computation operations. To address this limitation, we present a novel shortcut-connected MoE architecture with overlapping parallel strategy, designated as ScMoE, which effectively decouples communication from its conventional sequence, allowing for a substantial overlap of 70% to 100% with computation. When compared with the prevalent top-2 MoE architecture, ScMoE demonstrates training speed improvements of 30% and 11%, and inference improvements of 40% and 15%, in our PCIe and NVLink hardware environments, respectively, where communication constitutes 60% and 15% of the total MoE time consumption. On the other hand, extensive experiments and theoretical analyses indicate that ScMoE not only achieves comparable but in some instances surpasses the model quality of existing approaches in vision and language tasks.
翻訳日:2024-04-09 16:12:42 公開日:2024-04-07
# DinoBloom:血液学における一般化可能な細胞埋め込みの基礎モデル

DinoBloom: A Foundation Model for Generalizable Cell Embeddings in Hematology ( http://arxiv.org/abs/2404.05022v1 )

ライセンス: Link先を確認
Valentin Koch, Sophia J. Wagner, Salome Kazeminia, Ece Sancar, Matthias Hehr, Julia Schnabel, Tingying Peng, Carsten Marr, (参考訳) 血液学において、計算モデルは、診断精度の向上、ワークフローの効率化、末梢血や骨髄の腫れを単細胞で解析する面倒な作業の軽減に重要な可能性を秘めている。 しかし, 大規模バッチ効果, データセットサイズが小さく, 自然画像からの移動学習性能が低かったため, 一般化の欠如により, 計算モデルの臨床的採用が妨げられている。 これらの課題に対処するために、DinoBloomを紹介した。これは血液学における単一細胞画像の基盤モデルであり、DINOv2パイプラインをカスタマイズしたものである。 本モデルでは, 末梢血および骨髄のスミアについて, 13種類の多種多様なデータセットと, 380,000個の白血球画像からなる, 血液学における最も実質的なオープンソースコーホートを用いて構築した。 一般化能力を評価するため、ドメインシフトの困難な外部データセット上で評価する。 我々のモデルは既存の医用および非医療用視覚モデルよりも優れていることを示す。 一 血液及び骨髄スミアの細胞型分類のためのリニアプローブおよびk-アネレスト近傍の評価 (II)急性骨髄性白血病に対する多症例学習が著明に指導された。 4つのDinoBloomモデル(小型、ベース、大型、巨大)のファミリーは、幅広い下流アプリケーションに適用でき、分類問題の強力なベースラインとなり、新しいデータセットにおけるバッチ効果の評価を容易にする。 全てのモデルはgithub.com/marrlab/DinoBloomで入手できる。

In hematology, computational models offer significant potential to improve diagnostic accuracy, streamline workflows, and reduce the tedious work of analyzing single cells in peripheral blood or bone marrow smears. However, clinical adoption of computational models has been hampered by the lack of generalization due to large batch effects, small dataset sizes, and poor performance in transfer learning from natural images. To address these challenges, we introduce DinoBloom, the first foundation model for single cell images in hematology, utilizing a tailored DINOv2 pipeline. Our model is built upon an extensive collection of 13 diverse, publicly available datasets of peripheral blood and bone marrow smears, the most substantial open-source cohort in hematology so far, comprising over 380,000 white blood cell images. To assess its generalization capability, we evaluate it on an external dataset with a challenging domain shift. We show that our model outperforms existing medical and non-medical vision models in (i) linear probing and k-nearest neighbor evaluations for cell-type classification on blood and bone marrow smears and (ii) weakly supervised multiple instance learning for acute myeloid leukemia subtyping by a large margin. A family of four DinoBloom models (small, base, large, and giant) can be adapted for a wide range of downstream applications, be a strong baseline for classification problems, and facilitate the assessment of batch effects in new datasets. All models are available at github.com/marrlab/DinoBloom.
翻訳日:2024-04-09 16:12:42 公開日:2024-04-07
# スケーラブルで効率的な階層型視覚トポロジマッピング

Scalable and Efficient Hierarchical Visual Topological Mapping ( http://arxiv.org/abs/2404.05023v1 )

ライセンス: Link先を確認
Saravanabalagi Ramachandran, Jonathan Horgan, Ganesh Sistu, John McDonald, (参考訳) 階層的トポロジカル表現は、マッピングとローカライゼーションアルゴリズムにおける探索時間を著しく短縮することができる。 近年の研究では、このようなアプローチの可能性を示しているが、この文脈における異なるグローバルな特徴表現の適合性と比較性能について限定的な考察がなされている。 本研究では, ベンチマークデータセット上での階層的トポロジマッピング手法を用いて, 最先端の手作り, 学習されたグローバルディスクリプタの評価を行い, 使用するグローバルディスクリプタの影響を総合的に評価した。 学習ディスクリプタは, 精度の向上と全体のリコール向上のために, 位置認識手法に組み込まれてきたが, 長い軌道に適用した場合のスケーラビリティと効率の問題は, 研究の大部分が適切に解決されていない。 複数の実行を経験的に分析した結果,効率的かつスケーラブルな階層型マッピングを実現する最適なグローバルディスクリプタにおいて,連続性と特異性が重要な特性であることを確認し,これらの特徴を異なるグローバルディスクリプタ間で定量化および対比するための方法論を提案する。 本研究では,教師なし学習型変分オートエンコーダ(VAE)に基づくグローバルディスクリプタの使用が,これらの特性に優れており,実行時間が大幅に低くなることを示す。 コンシューマグレードのデスクトップ上で動作し、第2位のグローバルディスクリプタであるNetVLADより最大2.3倍高速で、手作りディスクリプタであるPHOGよりも9.5倍高速で、全体のリコール性能を犠牲にすることなく、最長 (St Lucia, 17.6 km) で評価されている。

Hierarchical topological representations can significantly reduce search times within mapping and localization algorithms. Although recent research has shown the potential for such approaches, limited consideration has been given to the suitability and comparative performance of different global feature representations within this context. In this work, we evaluate state-of-the-art hand-crafted and learned global descriptors using a hierarchical topological mapping technique on benchmark datasets and present results of a comprehensive evaluation of the impact of the global descriptor used. Although learned descriptors have been incorporated into place recognition methods to improve retrieval accuracy and enhance overall recall, the problem of scalability and efficiency when applied to longer trajectories has not been adequately addressed in a majority of research studies. Based on our empirical analysis of multiple runs, we identify that continuity and distinctiveness are crucial characteristics for an optimal global descriptor that enable efficient and scalable hierarchical mapping, and present a methodology for quantifying and contrasting these characteristics across different global descriptors. Our study demonstrates that the use of global descriptors based on an unsupervised learned Variational Autoencoder (VAE) excels in these characteristics and achieves significantly lower runtime. It runs on a consumer grade desktop, up to 2.3x faster than the second best global descriptor, NetVLAD, and up to 9.5x faster than the hand-crafted descriptor, PHOG, on the longest track evaluated (St Lucia, 17.6 km), without sacrificing overall recall performance.
翻訳日:2024-04-09 16:12:42 公開日:2024-04-07
# PathFinder: 移動ロボットによる注意駆動型動的非視線追跡

PathFinder: Attention-Driven Dynamic Non-Line-of-Sight Tracking with a Mobile Robot ( http://arxiv.org/abs/2404.05024v1 )

ライセンス: Link先を確認
Shenbagaraj Kannapiran, Sreenithy Chandran, Suren Jayasuriya, Spring Berman, (参考訳) 非視線画像(NLOS)の研究は、救助活動や自動運転車による歩行者検出など、多くの潜在的な応用により、増加している。 しかし、移動カメラにNLOSイメージングを実装することは、まだ研究の領域である。 既存のNLOS撮像法は時間分解検出器とレーザー構成に依存しており、正確な光学的アライメントを必要とするため、動的環境への展開が困難である。 この研究は、NLOSイメージングのためのデータ駆動型アプローチであるPathFinderを提案し、ドローンのような小型で電力に制約のある移動ロボットに搭載された標準のRGBカメラで使用できる。 我々の実験パイプラインは、マンハッタンの世界で動いている人の2次元軌跡を正確に推定し、カメラの視野から隠れたままにしておくように設計されている。 本稿では,リアルタイムに推論を行うアテンションベースニューラルネットワークを用いて,LOS(Line-of-sight)ビデオ中の動的逐次フレームのシーケンスを処理する新しいアプローチを提案する。 また、壁や建物ファサードなどの複数の垂直平面面を含む移動カメラから画像を分析し、最大NLOS情報を返す平面を抽出する前処理選択指標を含む。 我々は,映像撮影のためのドローンによる現場撮影のアプローチを検証し,ダイナミックキャプチャ環境での低コストなNLOSイメージングを実証した。

The study of non-line-of-sight (NLOS) imaging is growing due to its many potential applications, including rescue operations and pedestrian detection by self-driving cars. However, implementing NLOS imaging on a moving camera remains an open area of research. Existing NLOS imaging methods rely on time-resolved detectors and laser configurations that require precise optical alignment, making it difficult to deploy them in dynamic environments. This work proposes a data-driven approach to NLOS imaging, PathFinder, that can be used with a standard RGB camera mounted on a small, power-constrained mobile robot, such as an aerial drone. Our experimental pipeline is designed to accurately estimate the 2D trajectory of a person who moves in a Manhattan-world environment while remaining hidden from the camera's field-of-view. We introduce a novel approach to process a sequence of dynamic successive frames in a line-of-sight (LOS) video using an attention-based neural network that performs inference in real-time. The method also includes a preprocessing selection metric that analyzes images from a moving camera which contain multiple vertical planar surfaces, such as walls and building facades, and extracts planes that return maximum NLOS information. We validate the approach on in-the-wild scenes using a drone for video capture, thus demonstrating low-cost NLOS imaging in dynamic capture environments.
翻訳日:2024-04-09 16:12:42 公開日:2024-04-07
# LOGO:グループアクション品質評価のための長期ビデオデータセット

LOGO: A Long-Form Video Dataset for Group Action Quality Assessment ( http://arxiv.org/abs/2404.05029v1 )

ライセンス: Link先を確認
Shiyi Zhang, Wenxun Dai, Sujia Wang, Xiangwei Shen, Jiwen Lu, Jie Zhou, Yansong Tang, (参考訳) アクション品質アセスメント(AQA)は多くのシナリオで広く適用できるため、新たなトピックとなっている。 しかし、既存のほとんどの手法とデータセットは、より複雑な状況におけるAQAの適用を妨げる、シングルパーソンのショートシーケンスシーンに焦点を当てている。 この問題に対処するため,LOGOというアクション品質評価のための多人数長ビデオデータセットを構築した。 シナリオの複雑さで識別されたデータセットには、26のアーティスティックスイミングイベントのビデオ200本と、各サンプルに8人のアスリートと、平均204.2秒の時間が含まれています。 アノテーションの豊かさに関して、LOGOには、複数のアスリートのグループ情報とアクション手順に関する詳細なアノテーションを記述するためのフォーメーションラベルが含まれている。 さらに,スポーツ選手間の関係をモデル化する簡易かつ効果的な手法を提案する。 具体的には、既存のAQAメソッドに簡単にプラグイン可能なグループ認識アテンションモジュールを設計し、コンテキスト的グループ情報に基づくクリップワイズ表現を充実させる。 LOGOをベンチマークするために、AQAとアクションセグメンテーションにおけるいくつかの一般的な手法の性能について、系統的に調査を行う。 その結果、データセットがもたらす課題が明らかになりました。 また,大規模な実験により,LOGOデータセットの最先端化が図られている。 データセットとコードは \url{https://github.com/shiyi-zh0408/LOGO } でリリースされる。

Action quality assessment (AQA) has become an emerging topic since it can be extensively applied in numerous scenarios. However, most existing methods and datasets focus on single-person short-sequence scenes, hindering the application of AQA in more complex situations. To address this issue, we construct a new multi-person long-form video dataset for action quality assessment named LOGO. Distinguished in scenario complexity, our dataset contains 200 videos from 26 artistic swimming events with 8 athletes in each sample along with an average duration of 204.2 seconds. As for richness in annotations, LOGO includes formation labels to depict group information of multiple athletes and detailed annotations on action procedures. Furthermore, we propose a simple yet effective method to model relations among athletes and reason about the potential temporal logic in long-form videos. Specifically, we design a group-aware attention module, which can be easily plugged into existing AQA methods, to enrich the clip-wise representations based on contextual group information. To benchmark LOGO, we systematically conduct investigations on the performance of several popular methods in AQA and action segmentation. The results reveal the challenges our dataset brings. Extensive experiments also show that our approach achieves state-of-the-art on the LOGO dataset. The dataset and code will be released at \url{https://github.com/shiyi-zh0408/LOGO }.
翻訳日:2024-04-09 16:12:42 公開日:2024-04-07
# 3Dカラーコードのマジック境界

Magic Boundaries of 3D Color Codes ( http://arxiv.org/abs/2404.05033v1 )

ライセンス: Link先を確認
Zijian Song, Guanyu Zhu, (参考訳) 我々は,3次元カラーコードの境界について検討し,体系的な分類を101の異なる境界タイプに分類する。 基本的な境界は、電粒子(Z$-type)または磁束(X$-type)の3Dカラーコードでの励起を凝縮するコメンジョン-1(2D)境界、電粒子のみを凝縮する$Z$-boundary Condensing、磁束のみを凝縮する$X$-boundary Condensing、電気と磁気の励起を凝縮する他の境界である。 特定の基本タイプに基づいて、2つの新しいタイプの境界を生成することができる。 最初の型は、$X$-boundaryの存在下でコード全体にtransversal-$T$ gateを適用することで生成され、システム全体にわたってcodimension-1 (2D) $T$- domain Wallを事実上掃除し、$X$-boundaryにアタッチする。 $T$ドメインの壁は$X$-boundaryでは凝縮できないので、新しい \textit{magic boundary} が生成され、そこで境界安定化器は、従来のパウリ安定化器形式を超えて$XS$-stabilizersを含み、したがって 'magic' を含む。 電気的・磁気的な励起はそのようなマジック境界に凝縮せず、磁束と余次元2(1D)$S$-ドメイン壁の合成だけが凝縮し、魔法の境界はラグランジアン部分群の分類を超えたものとなる。 第2のタイプは、ある余次元-1(2D)境界が存在する場合、余次元-1(2D)部分多様体にtransversal-S$ gateを適用することで生成される。 これにより、交点における余次元-2 (1D) \textit{nested boundary} が生成される。 また、これらの新しい境界線は3次元トーリック符号の3つのコピーに相当する$\mathbb{Z}_2^3$ゲージ理論において以前に発見された境界線と接続する。

We investigate boundaries of 3D color codes and provide a systematic classification into 101 distinct boundary types. The elementary types of boundaries are codimension-1 (2D) boundaries that condense electric particle ($Z$-type) or magnetic flux ($X$-type) excitations in the 3D color code, including the $Z$-boundary condensing only electric particles, the $X$-boundary condensing only the magnetic flux, and other boundaries condensing both electric and magnetic excitations. Two novel types of boundaries can be generated based on certain elementary types. The first type is generated by applying transversal-$T$ gate on the entire code in the presence of the $X$-boundary, which effectively sweeps the codimension-1 (2D) $T$-domain wall across the system and attaches it to the $X$-boundary. Since the $T$-domain wall cannot condense on the $X$-boundary, a new \textit{magic boundary} is produced, where the boundary stabilizers contain $XS$-stabilizers going beyond the conventional Pauli stabilizer formalism and hence contains `magic'. Neither electric nor magnetic excitations can condense on such a magic boundary, and only the composite of the magnetic flux and codimension-2 (1D) $S$-domain wall can condense on it, which makes the magic boundary going beyond the classification of the Lagrangian subgroup. The second type is generated by applying transversal-$S$ gate on a codimension-1 (2D) submanifold in the presence of certain codimension-1 (2D) boundaries, which effectively sweeps the $S$-domain wall across this submanifold and attaches it onto the boundary. This generates a codimension-2 (1D) \textit{nested boundary} at the intersection. We also connect these novel boundaries to their previously discovered counterpart in the $\mathbb{Z}_2^3$ gauge theory equivalent to three copies of 3D toric codes...
翻訳日:2024-04-09 16:12:42 公開日:2024-04-07
# OSS開発者がQ&Aサイトからアーキテクチャソリューションを利用する方法:実証的研究

How Do OSS Developers Utilize Architectural Solutions from Q&A Sites: An Empirical Study ( http://arxiv.org/abs/2404.05041v1 )

ライセンス: Link先を確認
Musengamana Jean de Dieu, Peng Liang, Mojtaba Shahin, (参考訳) 開発者はQ&Aサイトでプログラミング関連の知識(コードスニペットなど)を利用する(Stack Overflowなど)。 Q&Aサイトに関する広範な研究にもかかわらず、高度で重要な開発関連の知識であるにもかかわらず、アーキテクチャソリューション(例えば、アーキテクチャの戦術)とその利用はめったに研究されていない。 このギャップを埋めるために,鉱業調査と調査研究を含む混合メソッド調査を行った。 マイニング調査では,Stack Overflow(SO)とSoftware Engineering Stack Exchange(SWESE)のアーキテクチャソリューションを明示的に参照したGitHub上の893のオープンソースソフトウェア(OSS)プロジェクトから,984のコミットと問題(すなわち821のコミットと163のイシュー)を掘り下げました。 調査では,これらのアーキテクチャソリューションの利用に関わる実践者を特定し,その内227人を調査し,OSS開発におけるQ&Aサイトからのアーキテクチャソリューションの活用方法をさらに理解した。 1) OSS実践者は,(1) コンポーネント設計問題,アーキテクチャアンチパターン,セキュリティ問題など,多種多様なアーキテクチャ問題 (15カテゴリ) を解決するために,アーキテクチャソリューションを使用する。(2) アーキテクチャリファクタリング,フレームワークの利用,アーキテクチャ戦術が3つの最も活用されているアーキテクチャソリューションとして,Q&A現場からのアーキテクチャソリューションの7つのカテゴリが使用されている。

Developers utilize programming-related knowledge (e.g., code snippets) on Q&A sites (e.g., Stack Overflow) that functionally matches the programming problems they encounter in their development. Despite extensive research on Q&A sites, being a high-level and important type of development-related knowledge, architectural solutions (e.g., architecture tactics) and their utilization are rarely explored. To fill this gap, we conducted a mixed-methods study that includes a mining study and a survey study. For the mining study, we mined 984 commits and issues (i.e., 821 commits and 163 issues) from 893 Open-Source Software (OSS) projects on GitHub that explicitly referenced architectural solutions from Stack Overflow (SO) and Software Engineering Stack Exchange (SWESE). For the survey study, we identified practitioners involved in the utilization of these architectural solutions and surveyed 227 of them to further understand how practitioners utilize architectural solutions from Q&A sites in their OSS development. Our main findings are that: (1) OSS practitioners use architectural solutions from Q&A sites to solve a large variety (15 categories) of architectural problems, wherein Component design issue, Architectural anti-pattern, and Security issue are dominant; (2) Seven categories of architectural solutions from Q&A sites have been utilized to solve those problems, among which Architectural refactoring, Use of frameworks, and Architectural tactic are the three most utilized architectural solutions; (3) Using architectural solutions from SO comes with a variety of challenges, e.g., OSS practitioners complain that they need to spend significant time to adapt such architectural solutions to address design concerns raised in their OSS development, and it is challenging to use architectural solutions that are not tailored to the design context of their OSS projects.
翻訳日:2024-04-09 16:12:42 公開日:2024-04-07
# ハーモニゼーションによるグループ利害関係者のプライバシとユーティリティのトレードオフの最適化

Optimizing Privacy and Utility Tradeoffs for Group Interests Through Harmonization ( http://arxiv.org/abs/2404.05043v1 )

ライセンス: Link先を確認
Bishwas Mandal, George Amariucai, Shuangqing Wei, (参考訳) 本稿では,プライバシとユーティリティのトレードオフに対処する新たな問題の定式化を提案する。 すべてのユーザが同一のプライベート属性とユーティリティ属性を共有し、しばしば補助的なデータセットや手動アノテーションに依存しているシナリオに主にフォーカスする以前の研究とは異なり、信頼されたサードパーティを通じて2つのユーザーグループ間で協調的なデータ共有機構を導入する。 このサードパーティは、提案したデータ共有メカニズムを使って、両方のグループのデータを内部的に衛生化し、手動のアノテーションや補助的なデータセットを必要としないようにします。 提案手法は,ユーティリティ機能の高精度な予測が可能でありながら,プライベート属性を正確に推測できないことを保証している。 重要なことは、たとえアナリストや敵が生データを含む補助データセットを持っているとしても、それらは正確にプライベートな特徴を推測することができない。 さらに、我々のデータ共有メカニズムは、既存のさまざまな敵に訓練されたプライバシー技術と互換性がある。 合成および実世界のデータセットを使用して、我々のアプローチの有効性を実証的に実証し、プライバシとユーティリティの相反する目標のバランスをとる能力を示す。

We propose a novel problem formulation to address the privacy-utility tradeoff, specifically when dealing with two distinct user groups characterized by unique sets of private and utility attributes. Unlike previous studies that primarily focus on scenarios where all users share identical private and utility attributes and often rely on auxiliary datasets or manual annotations, we introduce a collaborative data-sharing mechanism between two user groups through a trusted third party. This third party uses adversarial privacy techniques with our proposed data-sharing mechanism to internally sanitize data for both groups and eliminates the need for manual annotation or auxiliary datasets. Our methodology ensures that private attributes cannot be accurately inferred while enabling highly accurate predictions of utility features. Importantly, even if analysts or adversaries possess auxiliary datasets containing raw data, they are unable to accurately deduce private features. Additionally, our data-sharing mechanism is compatible with various existing adversarially trained privacy techniques. We empirically demonstrate the effectiveness of our approach using synthetic and real-world datasets, showcasing its ability to balance the conflicting goals of privacy and utility.
翻訳日:2024-04-09 16:12:42 公開日:2024-04-07
# GPT-4を用いたタブラルデータにおけるゼロショットプライバシユーティリティトレードオフの初期探索

Initial Exploration of Zero-Shot Privacy Utility Tradeoffs in Tabular Data Using GPT-4 ( http://arxiv.org/abs/2404.05047v1 )

ライセンス: Link先を確認
Bishwas Mandal, George Amariucai, Shuangqing Wei, (参考訳) 本稿では,大規模言語モデル(LLM),特にGPT-4の,表形式のデータにおけるプライバシとユーティリティのトレードオフを含むシナリオへの適用について検討する。 提案手法では,表形式のデータポイントをテキスト形式に変換して GPT-4 を促進させるとともに,正確な衛生指示をゼロショットで含む。 主な目的は、既存の機械学習モデルがプライベートな特徴を正確に推論することを妨げるとともに、モデルがユーティリティ関連の属性を正確に推論できるようにするように、表データの衛生化である。 各種衛生対策について検討する。 特に、この比較的単純なアプローチは、プライバシとユーティリティのトレードオフを管理するために使われる、より複雑な敵最適化手法に匹敵するパフォーマンスをもたらす。 さらに、既存の機械学習モデルの検出能力から、プライベートな特徴を隠蔽することに成功しているが、この難読化だけでは必ずしもフェアネスの指標を満たさないことが観察されている。 しかしながら,本研究は,これらの公正度指標に適合するLLMの有効性を示唆しており,その実験結果のいくつかは,よく確立された対角最適化手法によって達成されたものと一致している。

We investigate the application of large language models (LLMs), specifically GPT-4, to scenarios involving the tradeoff between privacy and utility in tabular data. Our approach entails prompting GPT-4 by transforming tabular data points into textual format, followed by the inclusion of precise sanitization instructions in a zero-shot manner. The primary objective is to sanitize the tabular data in such a way that it hinders existing machine learning models from accurately inferring private features while allowing models to accurately infer utility-related attributes. We explore various sanitization instructions. Notably, we discover that this relatively simple approach yields performance comparable to more complex adversarial optimization methods used for managing privacy-utility tradeoffs. Furthermore, while the prompts successfully obscure private features from the detection capabilities of existing machine learning models, we observe that this obscuration alone does not necessarily meet a range of fairness metrics. Nevertheless, our research indicates the potential effectiveness of LLMs in adhering to these fairness metrics, with some of our experimental results aligning with those achieved by well-established adversarial optimization techniques.
翻訳日:2024-04-09 16:12:42 公開日:2024-04-07
# PlateSegFL:フェデレーションセグメンテーション学習を用いたプライバシ保護ライセンスプレート検出

PlateSegFL: A Privacy-Preserving License Plate Detection Using Federated Segmentation Learning ( http://arxiv.org/abs/2404.05049v1 )

ライセンス: Link先を確認
Md. Shahriar Rahman Anuvab, Mishkat Sultana, Md. Atif Hossain, Shashwata Das, Suvarthi Chowdhury, Rafeed Rahman, Dibyo Fabian Dofadar, Shahriar Rahman Rana, (参考訳) 自動ナンバープレート認識(ALPR)は、安全輸送、車両間通信、盗難車両の検出、交通違反、交通フロー管理に広範囲に応用されたインテリジェントトランスポートシステムの不可欠なコンポーネントである。 既存のナンバープレート検出システムは、幾何学的バウンディングボックスで操作するワンショット学習者や事前訓練されたモデルに焦点を当て、モデルの性能を制限している。 さらに、中央サーバにアップロードされた連続的なビデオデータストリームは、ネットワークと複雑性の問題を引き起こします。 これに対抗するため、PlatetSegFLが導入され、Federated Learning (FL)とともにU-Netベースのセグメンテーションを実装した。 U-Netは、多数のクラスを分析し、各クラスのピクセルレベルのセグメンテーションマップを生成することができるため、マルチクラスのイメージセグメンテーションタスクに適している。 フェデレートラーニング(Federated Learning)は、ユーザのプライバシを保護する上で必要なデータ量を削減するために使用される。 携帯電話のような異なるコンピューティングプラットフォームは、自分の時間を効率的に利用し、より多様なデータを取り込み、リアルタイムでプロジェクションを配信し、ユーザーから物理的な労力を要さず、結果として約95%のF1スコアを得る、標準的な予測モデルの開発において協力することができる。

Automatic License Plate Recognition (ALPR) is an integral component of an intelligent transport system with extensive applications in secure transportation, vehicle-to-vehicle communication, stolen vehicles detection, traffic violations, and traffic flow management. The existing license plate detection system focuses on one-shot learners or pre-trained models that operate with a geometric bounding box, limiting the model's performance. Furthermore, continuous video data streams uploaded to the central server result in network and complexity issues. To combat this, PlateSegFL was introduced, which implements U-Net-based segmentation along with Federated Learning (FL). U-Net is well-suited for multi-class image segmentation tasks because it can analyze a large number of classes and generate a pixel-level segmentation map for each class. Federated Learning is used to reduce the quantity of data required while safeguarding the user's privacy. Different computing platforms, such as mobile phones, are able to collaborate on the development of a standard prediction model where it makes efficient use of one's time; incorporates more diverse data; delivers projections in real-time; and requires no physical effort from the user; resulting around 95% F1 score.
翻訳日:2024-04-09 16:12:42 公開日:2024-04-07
# シン・トゥ・リアル・ラーニングのためのスキル・トランスファーと発見:表現に基づく視点

Skill Transfer and Discovery for Sim-to-Real Learning: A Representation-Based Viewpoint ( http://arxiv.org/abs/2404.05051v1 )

ライセンス: Link先を確認
Haitong Ma, Zhaolin Ren, Bo Dai, Na Li, (参考訳) 表現学習を用いたロボット制御の文脈において,シミュレート・トゥ・リアルなスキル伝達と発見について検討した。 我々はマルコフ決定過程のスペクトル分解からインスピレーションを得る。 スペクトル分解は、任意のポリシーによって誘導される状態-作用値関数を線形に表現できる表現をもたらすため、スキルとみなすことができる。 スキル表現は、同じ遷移ダイナミクスを持つ任意のタスク間で転送可能である。 さらに,シミュレーションと現実のギャップを扱うために,実世界のデータとのシミュレーションと現実のギャップに起因する新たなスキルを学習するスキル発見アルゴリズムを提案する。 我々は,学習するスキルとシミュレーターのスキルの直交的制約を強制することで,新たなスキルの発見を促進し,拡張されたスキルセットを用いてポリシーを合成する。 シミュレーターからクレージーフリー2.1の4乗子に4乗子コントローラを移すことで,本手法を実証する。 1つのシミュレータータスクからスキル表現を学習し、ホバリング、離陸、着陸、軌道追跡を含む複数の現実世界タスクに伝達できることが示される。 我々のスキル発見アプローチは、sim-to-realギャップを狭め、現実世界のコントローラのパフォーマンスを最大30.2%向上させるのに役立つ。

We study sim-to-real skill transfer and discovery in the context of robotics control using representation learning. We draw inspiration from spectral decomposition of Markov decision processes. The spectral decomposition brings about representation that can linearly represent the state-action value function induced by any policies, thus can be regarded as skills. The skill representations are transferable across arbitrary tasks with the same transition dynamics. Moreover, to handle the sim-to-real gap in the dynamics, we propose a skill discovery algorithm that learns new skills caused by the sim-to-real gap from real-world data. We promote the discovery of new skills by enforcing orthogonal constraints between the skills to learn and the skills from simulators, and then synthesize the policy using the enlarged skill sets. We demonstrate our methodology by transferring quadrotor controllers from simulators to Crazyflie 2.1 quadrotors. We show that we can learn the skill representations from a single simulator task and transfer these to multiple different real-world tasks including hovering, taking off, landing and trajectory tracking. Our skill discovery approach helps narrow the sim-to-real gap and improve the real-world controller performance by up to 30.2%.
翻訳日:2024-04-09 16:02:57 公開日:2024-04-07
# インストラクションチューニングによる顔の感情行動解析

Facial Affective Behavior Analysis with Instruction Tuning ( http://arxiv.org/abs/2404.05052v1 )

ライセンス: Link先を確認
Yifan Li, Anh Dao, Wentao Bao, Zhen Tan, Tianlong Chen, Huan Liu, Yu Kong, (参考訳) 顔の感情行動分析(FABA)は、画像から人間の精神状態を理解するために重要である。 しかし、従来のアプローチは、主に個別の感情カテゴリーを識別するためのモデルをデプロイし、複雑な顔の振る舞いに対する細かい粒度と推論能力が欠如している。 MLLM(Multi-modal Large Language Models)の出現は、一般的な視覚的理解タスクにおいて成功している。 しかし、データセットやベンチマークの不足、顔の事前知識の無視、トレーニング効率の低下など、MLLMを直接FABAに活用することは難しい。 これらの課題に対処するために、私たちは i)2つのFABAタスクのための指示追従データセット。例えば、感情と行動単位認識。 (ii)認識能力と生成能力の両方を考慮した新しい指標を持つベンチマークFABA-Bench (三)コミュニティの強力な基盤となる新しいMLLM「エモラ」。 データセットとベンチマークに関する我々のイニシアチブは、顔の感情行動の性質と理性、すなわち、きめ細かい顔の動き、解釈可能性、推論を明らかにする。 さらに,FABA MLLMを効果的かつ効率的に構築するために,顔構造知識と低ランク適応モジュールを事前訓練したMLLMに導入する。 FABA-Benchと4つの一般的なFABAデータセットについて広範な実験を行った。 以上の結果から,提案した顔前エキスパートはパフォーマンスを向上し,EmoLAはFABA-Benchで最高の結果を得ることができた。 一般的に使用されるFABAデータセットでは、EmoLAはタスク固有の最先端モデルと競合する。

Facial affective behavior analysis (FABA) is crucial for understanding human mental states from images. However, traditional approaches primarily deploy models to discriminate among discrete emotion categories, and lack the fine granularity and reasoning capability for complex facial behaviors. The advent of Multi-modal Large Language Models (MLLMs) has been proven successful in general visual understanding tasks. However, directly harnessing MLLMs for FABA is challenging due to the scarcity of datasets and benchmarks, neglecting facial prior knowledge, and low training efficiency. To address these challenges, we introduce (i) an instruction-following dataset for two FABA tasks, e.g., emotion and action unit recognition, (ii) a benchmark FABA-Bench with a new metric considering both recognition and generation ability, and (iii) a new MLLM "EmoLA" as a strong baseline to the community. Our initiative on the dataset and benchmarks reveal the nature and rationale of facial affective behaviors, i.e., fine-grained facial movement, interpretability, and reasoning. Moreover, to build an effective and efficient FABA MLLM, we introduce a facial prior expert module with face structure knowledge and a low-rank adaptation module into pre-trained MLLM. We conduct extensive experiments on FABA-Bench and four commonly-used FABA datasets. The results demonstrate that the proposed facial prior expert can boost the performance and EmoLA achieves the best results on our FABA-Bench. On commonly-used FABA datasets, EmoLA is competitive rivaling task-specific state-of-the-art models.
翻訳日:2024-04-09 16:02:57 公開日:2024-04-07
# オフライン強化学習におけるパーセンタイル基準最適化

Percentile Criterion Optimization in Offline Reinforcement Learning ( http://arxiv.org/abs/2404.05055v1 )

ライセンス: Link先を確認
Elita A. Lobo, Cyrus Cousins, Yair Zick, Marek Petrik, (参考訳) 強化学習において、限られたデータを持つ高い意思決定問題に対する堅牢なポリシーは、通常、 \emph{percentile criterion} を最適化することによって計算される。 パーセンタイルの基準は、確率の高い真のモデルを含む \emph{ambiguity set} を構築し、集合の最悪のモデルに対するポリシーを最適化することによって、概ね解決される。 パーセンタイルの基準は非凸であるため、曖昧性集合を構成することはしばしば困難である。 既存の仕事は曖昧性集合として 'emph{Bayesian credible region} を用いるが、それらはしばしば必要以上に大きくなり、過度に保守的な政策を学ぶ。 これらの欠点を克服するために,不明瞭な集合を明示的に構築することなくパーセンタイル基準を最適化する,バリュー・アット・リスクに基づく動的プログラミングアルゴリズムを提案する。 我々の理論的および実証的な結果は、我々のアルゴリズムが暗黙的により小さな曖昧性集合を構築し、より保守的なロバストなポリシーを学ぶことを示している。

In reinforcement learning, robust policies for high-stakes decision-making problems with limited data are usually computed by optimizing the \emph{percentile criterion}. The percentile criterion is approximately solved by constructing an \emph{ambiguity set} that contains the true model with high probability and optimizing the policy for the worst model in the set. Since the percentile criterion is non-convex, constructing ambiguity sets is often challenging. Existing work uses \emph{Bayesian credible regions} as ambiguity sets, but they are often unnecessarily large and result in learning overly conservative policies. To overcome these shortcomings, we propose a novel Value-at-Risk based dynamic programming algorithm to optimize the percentile criterion without explicitly constructing any ambiguity sets. Our theoretical and empirical results show that our algorithm implicitly constructs much smaller ambiguity sets and learns less conservative robust policies.
翻訳日:2024-04-09 16:02:57 公開日:2024-04-07
# TimeCSL:探索可能な時系列解析のための一般形状の教師なしコントラスト学習

TimeCSL: Unsupervised Contrastive Learning of General Shapelets for Explorable Time Series Analysis ( http://arxiv.org/abs/2404.05057v1 )

ライセンス: Link先を確認
Zhiyu Liang, Chen Liang, Zheng Liang, Hongzhi Wang, Bo Zheng, (参考訳) 教師なし(すなわち自己監督型)表現学習(URL)は、通常入手が難しいラベルを使わずに、多くの下流タスクに有用な一般化可能な時系列表現を学習する能力を持つため、時系列解析の新しいパラダイムとして登場した。 既存の手法では,表現エンコーダの設計や学習目的に制限があるため,非教師付きコントラスト学習を通じて汎用的なシェープレットベース表現を学習し,時系列分類やクラスタリング,異常検出などの解析タスクにおいて優れた性能を示す最初のURL手法であるContrastive Shapelet Learning (CSL)を提案する。 本稿では,CSLが学習した汎用および解釈可能なシェープレットをフル活用して,統合パイプラインにおける探索可能な時系列解析を実現する,エンドツーエンドシステムであるTimeCSLを開発する。 システムコンポーネントを導入し、ユーザがTimeCSLと対話して、統合パイプラインで異なる分析タスクを解く方法を示し、学習したシェープレットと表現を探索することで、時系列についての洞察を得る。

Unsupervised (a.k.a. Self-supervised) representation learning (URL) has emerged as a new paradigm for time series analysis, because it has the ability to learn generalizable time series representation beneficial for many downstream tasks without using labels that are usually difficult to obtain. Considering that existing approaches have limitations in the design of the representation encoder and the learning objective, we have proposed Contrastive Shapelet Learning (CSL), the first URL method that learns the general-purpose shapelet-based representation through unsupervised contrastive learning, and shown its superior performance in several analysis tasks, such as time series classification, clustering, and anomaly detection. In this paper, we develop TimeCSL, an end-to-end system that makes full use of the general and interpretable shapelets learned by CSL to achieve explorable time series analysis in a unified pipeline. We introduce the system components and demonstrate how users interact with TimeCSL to solve different analysis tasks in the unified pipeline, and gain insight into their time series by exploring the learned shapelets and representation.
翻訳日:2024-04-09 16:02:57 公開日:2024-04-07
# 一般化されたカイ二乗分布の新しい計算法

New methods for computing the generalized chi-square distribution ( http://arxiv.org/abs/2404.05062v1 )

ライセンス: Link先を確認
Abhranil Das, (参考訳) ベイズ分類問題に現れる一般化されたカイ二乗分布のcdf, pdf, inverse cdfを計算するために, 正確で近似的な数理手法とオープンソースソフトウェアを提案する。 いくつかの手法は速度を測るが、他の手法は尾部から遠くまで正確に設計されているため、多重正規点間の識別可能性指数$d'$の値も測定できる。 これらの手法の精度と速度を,既存手法と比較する。

We present several exact and approximate mathematical methods and open-source software to compute the cdf, pdf and inverse cdf of the generalized chi-square distribution, which appears in Bayesian classification problems. Some methods are geared for speed, while others are designed to be accurate far into the tails, using which we can also measure large values of the discriminability index $d'$ between multinormals. We compare the accuracy and speed of these methods against the best existing methods.
翻訳日:2024-04-09 16:02:57 公開日:2024-04-07
# AUEditNet: 意図しない絡み合いを伴うデュアルブランチ・ファシアル・アクション・ユニット・インテンシティ・マニピュレーション

AUEditNet: Dual-Branch Facial Action Unit Intensity Manipulation with Implicit Disentanglement ( http://arxiv.org/abs/2404.05063v1 )

ライセンス: Link先を確認
Shiwei Jin, Peng Liu, Zhen Wang, Lei Wang, Ning Bi, Truong Nguyen, (参考訳) 顔面動作単位(AU)強度は、表情操作の有効な条件であるきめ細かい表情行動の定量化において重要な役割を担っている。 しかし、複数のAUに対する強度アノテーションを含む公開データセットは、しばしば限られた数の被験者を特徴とする、非常に制限されたままである。 この制限は、歪み問題による画像のAU強度の操作に課題を与え、研究者は擬似ラベルのための事前訓練されたAU強度推定器を備えた他の大きなデータセットを利用するようになった。 この制約に対処し、正確な操作のためにAUインテンシティのマニュアルアノテーションを完全に活用する際、AUEditNetを紹介します。 提案したモデルでは, 被験者18名に対して, 12AUに対して印象的な強度操作が可能であった。 両ブランチアーキテクチャを用いることで、損失関数の追加や大規模なバッチサイズの実装を必要とせず、顔の属性とアイデンティティの包括的切り離しを実現する。 このアプローチは、データセットの被写体数に制限があるにもかかわらず、望ましい顔属性の編集を実現する潜在的なソリューションを提供する。 実験では、AUEditNetがAU強度の編集に優れていることを実証し、限られた被写体プール内で顔の特徴やアイデンティティを識別する能力を確認した。 AUEditNetは、強度値またはターゲット画像による条件付けを可能にし、特定の表情合成のためにAUの組み合わせを構築する必要がなくなる。 さらに、下流タスクとしてのAU強度推定は、実際の画像と編集された画像との整合性を検証し、提案手法の有効性を確認する。

Facial action unit (AU) intensity plays a pivotal role in quantifying fine-grained expression behaviors, which is an effective condition for facial expression manipulation. However, publicly available datasets containing intensity annotations for multiple AUs remain severely limited, often featuring a restricted number of subjects. This limitation places challenges to the AU intensity manipulation in images due to disentanglement issues, leading researchers to resort to other large datasets with pretrained AU intensity estimators for pseudo labels. In addressing this constraint and fully leveraging manual annotations of AU intensities for precise manipulation, we introduce AUEditNet. Our proposed model achieves impressive intensity manipulation across 12 AUs, trained effectively with only 18 subjects. Utilizing a dual-branch architecture, our approach achieves comprehensive disentanglement of facial attributes and identity without necessitating additional loss functions or implementing with large batch sizes. This approach offers a potential solution to achieve desired facial attribute editing despite the dataset's limited subject count. Our experiments demonstrate AUEditNet's superior accuracy in editing AU intensities, affirming its capability in disentangling facial attributes and identity within a limited subject pool. AUEditNet allows conditioning by either intensity values or target images, eliminating the need for constructing AU combinations for specific facial expression synthesis. Moreover, AU intensity estimation, as a downstream task, validates the consistency between real and edited images, confirming the effectiveness of our proposed AU intensity manipulation method.
翻訳日:2024-04-09 16:02:57 公開日:2024-04-07
# 浅部ReLUニューラルネットワークのための構造誘導型ガウスニュートン法

A Structure-Guided Gauss-Newton Method for Shallow ReLU Neural Network ( http://arxiv.org/abs/2404.05064v1 )

ライセンス: Link先を確認
Zhiqiang Cai, Tong Ding, Min Liu, Xinyu Liu, Jianlin Xia, (参考訳) 本稿では,浅いReLUニューラルネットワークを用いて最小二乗問題を解く構造誘導型ガウスニュートン(SgGN)法を提案する。 目的関数の最小二乗構造とニューラルネットワーク構造の両方を効果的に活用する。 ネットワークの隠蔽層と出力層の重みとバイアスをそれぞれ非線形パラメータと線形パラメータとに分類することにより、非線形パラメータと線形パラメータの相互に反復する。 非線形パラメータは減衰ガウスニュートン法により更新され、線形パラメータは線形解法により更新される。 さらに、ガウス-ニュートンステップでは、浅いReLUニューラルネットワークに対してガウス-ニュートン行列の特別な形式が導出され、効率的な反復に使用される。 それぞれの線形および非線形ステップにおける対応する質量とガウス・ニュートン行列は、合理的な仮定の下で対称かつ正定値であることが示されている。 したがって、SgGN法は、ガウス・ニュートン行列の可逆性を達成するためにレバンス・マルカルト法のシフトのような追加のテクニックを必要とせずに、自然に有効な探索方向を生成する。 この手法の収束と精度は、いくつかの難解な関数近似問題、特に機械学習においてよく使われるトレーニングアルゴリズムに重要な課題をもたらす不連続性や急激な遷移層に対して数値的に証明される。

In this paper, we propose a structure-guided Gauss-Newton (SgGN) method for solving least squares problems using a shallow ReLU neural network. The method effectively takes advantage of both the least squares structure and the neural network structure of the objective function. By categorizing the weights and biases of the hidden and output layers of the network as nonlinear and linear parameters, respectively, the method iterates back and forth between the nonlinear and linear parameters. The nonlinear parameters are updated by a damped Gauss-Newton method and the linear ones are updated by a linear solver. Moreover, at the Gauss-Newton step, a special form of the Gauss-Newton matrix is derived for the shallow ReLU neural network and is used for efficient iterations. It is shown that the corresponding mass and Gauss-Newton matrices in the respective linear and nonlinear steps are symmetric and positive definite under reasonable assumptions. Thus, the SgGN method naturally produces an effective search direction without the need of additional techniques like shifting in the Levenberg-Marquardt method to achieve invertibility of the Gauss-Newton matrix. The convergence and accuracy of the method are demonstrated numerically for several challenging function approximation problems, especially those with discontinuities or sharp transition layers that pose significant challenges for commonly used training algorithms in machine learning.
翻訳日:2024-04-09 16:02:57 公開日:2024-04-07
# AirShot: 自律探査のための効率的なFew-Shot検出

AirShot: Efficient Few-Shot Detection for Autonomous Exploration ( http://arxiv.org/abs/2404.05069v1 )

ライセンス: Link先を確認
Zihan Wang, Bowen Li, Chen Wang, Sebastian Scherer, (参考訳) ロボット探索では、オンラインで提供されたいくつかの例で、見えない物体を見つけるためにロボットが必要とされる。 近年、オンライン処理能力を得る努力が続けられているにもかかわらず、低出力ロボットの速度の遅い推論速度は、リアルタイム検出の要求を満たすことができず、自律的な探索には実用的ではない。 既存のメソッドは、主に信頼性の低い機能と徹底したクラスループのために、パフォーマンスと効率の課題に直面しています。 本研究では,新しいパラダイムであるAirShotを提案するとともに,AirShotが価値ある相関マップを十分に活用することにより,より堅牢で高速な複数ショットオブジェクト検出システムを実現し,ロボットコミュニティにも適用可能であることを明らかにする。 コアモジュールトップ予測フィルタ(TPF)は、トレーニングと推論の両方の段階において、マルチスケールの相関マップで動作する。 トレーニング中、TPFはより代表的な相関マップの生成を監督する一方、推論中はトップランクのクラスを選択することでループの繰り返しを減らし、より良いパフォーマンスで計算コストを削減する。 驚くべきことに、このデュアル機能は様々なオフザシェルフモデルに対して、一般的な効率性と効率性を示す。 COCO2017、VOC2014、SubTデータセットの発掘実験は、TPFがほとんどの市販モデルの有効性と効率を大幅に向上し、56.3%高速な推論速度とともに36.4%の精度向上を達成することを示した。 コードとデータは https://github.com/ImNotPrepared/AirShot.com にある。

Few-shot object detection has drawn increasing attention in the field of robotic exploration, where robots are required to find unseen objects with a few online provided examples. Despite recent efforts have been made to yield online processing capabilities, slow inference speeds of low-powered robots fail to meet the demands of real-time detection-making them impractical for autonomous exploration. Existing methods still face performance and efficiency challenges, mainly due to unreliable features and exhaustive class loops. In this work, we propose a new paradigm AirShot, and discover that, by fully exploiting the valuable correlation map, AirShot can result in a more robust and faster few-shot object detection system, which is more applicable to robotics community. The core module Top Prediction Filter (TPF) can operate on multi-scale correlation maps in both the training and inference stages. During training, TPF supervises the generation of a more representative correlation map, while during inference, it reduces looping iterations by selecting top-ranked classes, thus cutting down on computational costs with better performance. Surprisingly, this dual functionality exhibits general effectiveness and efficiency on various off-the-shelf models. Exhaustive experiments on COCO2017, VOC2014, and SubT datasets demonstrate that TPF can significantly boost the efficacy and efficiency of most off-the-shelf models, achieving up to 36.4% precision improvements along with 56.3% faster inference speed. Code and Data are at: https://github.com/ImNotPrepared/AirShot.
翻訳日:2024-04-09 16:02:57 公開日:2024-04-07
# 抑うつ検出のためのテストタイムトレーニング

Test-Time Training for Depression Detection ( http://arxiv.org/abs/2404.05071v1 )

ライセンス: Link先を確認
Sri Harsha Dumpala, Chandramouli Shama Sastry, Rudolf Uher, Sageev Oore, (参考訳) うつ病検出に関するこれまでの研究では、同様の環境で収集されたデータセットを使用してモデルをトレーニングし、テストしていた。 しかし、実際には、列車とテストの分布が同一であることを保証することはできない。 分布シフトは、記録環境(例えば、バックグラウンドノイズ)や人口動態(例えば、性別、年齢など)などによってもたらされる。 このような分布シフトは、うつ病検出モデルの性能を著しく低下させる可能性がある。 本稿では,うつ病検出のためのモデルのロバスト性を向上させるために,TTT(Test-time Training)の適用について分析する。 モデルの定期的なテストと比較すると、TTTは、様々な分散シフトによってモデルのロバスト性を大幅に向上させることができる。 (a)背景雑音 b)ジェンダーバイアス,および (c)データ収集とキュレーション手順(例:トレーニングとテストのサンプルは別々のデータセットから作成される)。

Previous works on depression detection use datasets collected in similar environments to train and test the models. In practice, however, the train and test distributions cannot be guaranteed to be identical. Distribution shifts can be introduced due to variations such as recording environment (e.g., background noise) and demographics (e.g., gender, age, etc). Such distributional shifts can surprisingly lead to severe performance degradation of the depression detection models. In this paper, we analyze the application of test-time training (TTT) to improve robustness of models trained for depression detection. When compared to regular testing of the models, we find TTT can significantly improve the robustness of the model under a variety of distributional shifts introduced due to: (a) background-noise, (b) gender-bias, and (c) data collection and curation procedure (i.e., train and test samples are from separate datasets).
翻訳日:2024-04-09 16:02:57 公開日:2024-04-07
# エゴセントリックビデオからの空間認知: 視界外、心外ではない

Spatial Cognition from Egocentric Video: Out of Sight, Not Out of Mind ( http://arxiv.org/abs/2404.05072v1 )

ライセンス: Link先を確認
Chiara Plizzari, Shubham Goel, Toby Perrett, Jacob Chalk, Angjoo Kanazawa, Dima Damen, (参考訳) 人間が動き回って、毎日のタスクを実行すると、現在見えていないオブジェクトでも、環境に配置されたオブジェクトがどこにあるかを思い出すことができます。 本稿では,この空間認識能力を模倣することを目的とする。 そこで我々は、自我中心のカメラで捉えた観測から、アクティブな物体を3Dで追跡する、視界外ではなく視界外」というタスクを定式化する。 Lift, Match and Keep (LMK)は,3次元世界座標に部分的な2次元の観測値を持ち上げ,視覚的外観,3次元位置と相互作用を使ってオブジェクトのトラックを形成する手法である。 EPIC-KITCHENSの100長ビデオ上でLMKをテストする。 以上の結果から,空間認知は短期的・長期的な物体の正確な位置決定に重要であることが示唆された。 例えば、1つの長い自我中心のビデオでは、50個のアクティブな物体の3D位置を推定する。 そのうち60%は、カメラの視界を離れて2分後に3Dで正しく位置決めできる。

As humans move around, performing their daily tasks, they are able to recall where they have positioned objects in their environment, even if these objects are currently out of sight. In this paper, we aim to mimic this spatial cognition ability. We thus formulate the task of Out of Sight, Not Out of Mind - 3D tracking active objects using observations captured through an egocentric camera. We introduce Lift, Match and Keep (LMK), a method which lifts partial 2D observations to 3D world coordinates, matches them over time using visual appearance, 3D location and interactions to form object tracks, and keeps these object tracks even when they go out-of-view of the camera - hence keeping in mind what is out of sight. We test LMK on 100 long videos from EPIC-KITCHENS. Our results demonstrate that spatial cognition is critical for correctly locating objects over short and long time scales. E.g., for one long egocentric video, we estimate the 3D location of 50 active objects. Of these, 60% can be correctly positioned in 3D after 2 minutes of leaving the camera view.
翻訳日:2024-04-09 16:02:57 公開日:2024-04-07
# QRscript:決定と管理をサポートするためにQRコードにプログラミング言語を組み込む

QRscript: Embedding a Programming Language in QR codes to support Decision and Management ( http://arxiv.org/abs/2404.05073v1 )

ライセンス: Link先を確認
Stefano Scanzio, Gianluca Cena, Adriano Valenzano, (参考訳) QRコードにプログラミング言語を埋め込むことは、インターネット接続を必要とせずにデバイスやオブジェクトをよりスマートにするため、新しくて非常に有望な機会である。 本稿では,高レベルプログラミング言語で書かれたプログラムをQRコードに符号化したバイナリ表現に変換するために必要なすべてのステップについて述べる。 提案されたプログラミング言語はQRscriptと呼ばれ、新しい機能を統合するために簡単に拡張できる。 主な設計目標の1つは、非常にコンパクトなターゲットバイナリコードを作ることであった。 特に本研究では,決定木を符号化することを目的とした,特定のサブ言語(方言)を提案する。 産業シナリオの他に、これは他の多くのアプリケーション分野で有用である。 報告された例は、産業用ネットワークデバイスの構成に関連するもので、提案技術の可能性を強調し、すべての翻訳ステップをよりよく理解することができる。

Embedding a programming language in a QR code is a new and extremely promising opportunity, as it makes devices and objects smarter without necessarily requiring an Internet connection. In this paper, all the steps needed to translate a program written in a high-level programming language to its binary representation encoded in a QR code, and the opposite process that, starting from the QR code, executes it by means of a virtual machine, have been carefully detailed. The proposed programming language was named QRscript, and can be easily extended so as to integrate new features. One of the main design goals was to produce a very compact target binary code. In particular, in this work we propose a specific sub-language (a dialect) that is aimed at encoding decision trees. Besides industrial scenarios, this is useful in many other application fields. The reported example, related to the configuration of an industrial networked device, highlights the potential of the proposed technology, and permits to better understand all the translation steps.
翻訳日:2024-04-09 16:02:57 公開日:2024-04-07
# LTL対象ベルマン方程式の解の特異性について

On the Uniqueness of Solution for the Bellman Equation of LTL Objectives ( http://arxiv.org/abs/2404.05074v1 )

ライセンス: Link先を確認
Zetong Xuan, Alper Kamil Bozkurt, Miroslav Pajic, Yu Wang, (参考訳) 線形時間論理(LTL)の目的に対するサロゲート報酬は、LTLの目的のための計画問題に一般的に利用される。 広く採用されているサロゲート報酬アプローチでは、2つの割引係数を用いて、期待されたリターンがLTL目標の満足度確率を近似することを保証する。 予測リターンは、強化学習などのBellman更新を使って推定することができる。 しかし、2つの割引係数を持つベルマン方程式の解の特異性は明確に議論されていない。 例えば、割引係数の1つを1つに設定すると、ベルマン方程式は複数の解を持ち、予想されるリターンを不正確な評価に繋がることを示した。 次に、ベルマン方程式が一意解として期待される戻り値を持つ条件を提案し、拒絶するボトム連結成分 (BSCC) 内の状態に対する解を 0 とする。 この条件下では、割引対象州と割引対象州とを分離できることを示すことで、この条件が十分であることを示す。

Surrogate rewards for linear temporal logic (LTL) objectives are commonly utilized in planning problems for LTL objectives. In a widely-adopted surrogate reward approach, two discount factors are used to ensure that the expected return approximates the satisfaction probability of the LTL objective. The expected return then can be estimated by methods using the Bellman updates such as reinforcement learning. However, the uniqueness of the solution to the Bellman equation with two discount factors has not been explicitly discussed. We demonstrate with an example that when one of the discount factors is set to one, as allowed in many previous works, the Bellman equation may have multiple solutions, leading to inaccurate evaluation of the expected return. We then propose a condition for the Bellman equation to have the expected return as the unique solution, requiring the solutions for states inside a rejecting bottom strongly connected component (BSCC) to be 0. We prove this condition is sufficient by showing that the solutions for the states with discounting can be separated from those for the states without discounting under this condition
翻訳日:2024-04-09 16:02:57 公開日:2024-04-07
# HaVTR:大規模ファンデーションモデルによる拡張によるビデオテキスト検索の改善

HaVTR: Improving Video-Text Retrieval Through Augmentation Using Large Foundation Models ( http://arxiv.org/abs/2404.05083v1 )

ライセンス: Link先を確認
Yimu Wang, Shuai Yuan, Xiangru Jian, Wei Pang, Mushi Wang, Ning Yu, (参考訳) ビデオテキスト検索の最近の進歩は、強力なモデルアーキテクチャとトレーニング戦略の探求によって推進されているが、ビデオテキスト検索モデルの表現学習能力は、低品質かつ少ないトレーニングデータアノテーションのため、依然として制限されている。 この問題に対処するために,ビデオおよびテキストデータを拡張してより一般化された特徴を学習する,新しいビデオテキスト学習パラダイムであるHaVTRを提案する。 具体的には、まず、単語やフレームをランダムに複製またはドロップすることで、自己相似データを生成する単純な拡張手法を採用する。 さらに,近年の視覚・言語生成モデルの発展に触発されて,大規模言語モデル (LLM) と視覚生成モデル (VGM) を用いたテキストパラフレージングとビデオスタイリングによる,より強力な拡張手法を提案する。 さらに、映像やテキストにリッチな情報をもたらすために、私たちはLLMとVGMを使用して、元のデータに新たな関連情報を生成し、付加する幻覚に基づく拡張法を提案する。 リッチなデータから、いくつかのビデオテキスト検索ベンチマークで広範な実験を行い、既存の手法よりもHaVTRの方が優れていることを示した。

While recent progress in video-text retrieval has been driven by the exploration of powerful model architectures and training strategies, the representation learning ability of video-text retrieval models is still limited due to low-quality and scarce training data annotations. To address this issue, we present a novel video-text learning paradigm, HaVTR, which augments video and text data to learn more generalized features. Specifically, we first adopt a simple augmentation method, which generates self-similar data by randomly duplicating or dropping subwords and frames. In addition, inspired by the recent advancement in visual and language generative models, we propose a more powerful augmentation method through textual paraphrasing and video stylization using large language models (LLMs) and visual generative models (VGMs). Further, to bring richer information into video and text, we propose a hallucination-based augmentation method, where we use LLMs and VGMs to generate and add new relevant information to the original data. Benefiting from the enriched data, extensive experiments on several video-text retrieval benchmarks demonstrate the superiority of HaVTR over existing methods.
翻訳日:2024-04-09 16:02:57 公開日:2024-04-07
# 多相マッチングによる量子ランダムウォークサーチのロバスト性

Robustness of Quantum Random Walk Search with multi-phase matching ( http://arxiv.org/abs/2404.05084v1 )

ライセンス: Link先を確認
Hristo Tonchev, Petar Danev, (参考訳) 先程の研究では,一般化されたハウスリフレクションと位相乗算器を用いたトラバースコインを用いて,ハイパーキューブ上でのランダムウォーク探索アルゴリズムについて検討した。 同じフェーズが各イテレーションで使用される場合、トラバースコインのフェーズ間の特定の接続が保存されている場合、アルゴリズムは堅牢(フェーズ内のエラーに対して安定)である。 ここでは、現在のイテレーション数によって異なるフェーズが使用されている場合、ロバスト性がどのように変化するかを検討する。 相列の異なる6つの異なる例を数値的に研究する。 移動コインの位相間の接続が保存されていない場合でも,特定の位相列の使用によりアルゴリズムがより堅牢になることを示す。

In our previous works, we have studied quantum random walk search algorithm on hypercube, with traversing coin constructed by using generalized Householder reflection and a phase multiplier. When the same phases are used each iteration, the algorithm is robust (stable against errors in the phases) if a certain connection between the phases in the traversing coin is preserved, otherwise small errors lead to poor algorithm performance. Here we investigate how the robustness changes if different phases are used, depending on the current iteration number. We numerically study six different examples with different phase sequences. We show that usage of a particular sequence of phases can make the algorithm more robust even if there is no preserved connection between the phases in the traversing coin.
翻訳日:2024-04-09 16:02:57 公開日:2024-04-07
# LoRAについて

A Note on LoRA ( http://arxiv.org/abs/2404.05086v1 )

ライセンス: Link先を確認
Vlad Fomenko, Han Yu, Jongho Lee, Stanley Hsieh, Weizhu Chen, (参考訳) LoRA(Low-Rank Adaptation)は、LLM(Large Language Models)を驚くほど単純かつ効果的に適応させる方法として好まれている。 このノートは、最初に議論されなかった新しい視点を提供し、LoRAを大規模に展開するための一連の洞察を提示することによって、オリジナルのLoRA論文を拡張している。 新しい実験を導入することなく、我々はLoRAの理解と応用を改善することを目指している。

LoRA (Low-Rank Adaptation) has emerged as a preferred method for efficiently adapting Large Language Models (LLMs) with remarkable simplicity and efficacy. This note extends the original LoRA paper by offering new perspectives that were not initially discussed and presents a series of insights for deploying LoRA at scale. Without introducing new experiments, we aim to improve the understanding and application of LoRA.
翻訳日:2024-04-09 16:02:57 公開日:2024-04-07
# 入力摂動下での情報抽出に関するChatGPTの予測はどの程度信頼できるか?

How much reliable is ChatGPT's prediction on Information Extraction under Input Perturbations? ( http://arxiv.org/abs/2404.05088v1 )

ライセンス: Link先を確認
Ishani Mondal, Abhilasha Sancheti, (参考訳) 本稿では,情報抽出(IE)の最も基本的なタスクである名前付きエンティティ認識(NER)に対して,入力摂動下でのChatGPTの堅牢性(信頼性)を評価する。 誇大宣伝にもかかわらず、研究者の大多数は言語理解と生成能力について声を上げており、その頑丈さを理解するために少し注意を払っている。 1)予測。 2 予測の信任及び信任 3)その予測の背後にある根拠の質。 自動評価と人的評価の両方を用いて、2つのNERデータセット上でChatGPTのロバスト性(ゼロショットと少数ショットの両方設定)を体系的に解析する。 自動評価基準に基づくと,そのことが分かる。 1)ChatGPTは、広く知られている人や場所に関する摂動に比べて、薬物又は疾患の代替(まれな実体)に弱い。 2同じ実体に対する説明の質は「エンティティ・スペクティフィック」と「コンテキスト・スペクティフィック」の摂動の種類によって大きく異なり、文脈内学習を用いて品質を著しく改善することができる。 3)不正確な予測の大部分を過信しているため,エンドユーザの誤認につながる可能性がある。

In this paper, we assess the robustness (reliability) of ChatGPT under input perturbations for one of the most fundamental tasks of Information Extraction (IE) i.e. Named Entity Recognition (NER). Despite the hype, the majority of the researchers have vouched for its language understanding and generation capabilities; a little attention has been paid to understand its robustness: How the input-perturbations affect 1) the predictions, 2) the confidence of predictions and 3) the quality of rationale behind its prediction. We perform a systematic analysis of ChatGPT's robustness (under both zero-shot and few-shot setup) on two NER datasets using both automatic and human evaluation. Based on automatic evaluation metrics, we find that 1) ChatGPT is more brittle on Drug or Disease replacements (rare entities) compared to the perturbations on widely known Person or Location entities, 2) the quality of explanations for the same entity considerably differ under different types of "Entity-Specific" and "Context-Specific" perturbations and the quality can be significantly improved using in-context learning, and 3) it is overconfident for majority of the incorrect predictions, and hence it could lead to misguidance of the end-users.
翻訳日:2024-04-09 15:53:11 公開日:2024-04-07
# 合成データのトレーニングはどれほど悪いか? : 言語モデル崩壊の統計的分析

How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse ( http://arxiv.org/abs/2404.05090v1 )

ライセンス: Link先を確認
Mohamed El Amine Seddik, Suei-Wen Chen, Soufiane Hayou, Pierre Youssef, Merouane Debbah, (参考訳) モデル崩壊現象(Shumailov et al , 2023)は、以前に訓練されたモデルから生成された合成データに基づいて新しいモデルが訓練された際に生じる性能の劣化を指す。 この再帰的学習ループにより、元の分布の尾部が消滅し、将来のモデルが初期(実)分布を忘れてしまう。 本稿では,言語モデルにおけるモデル崩壊の厳密な理解を目的として,様々な再帰的学習シナリオの影響を特徴付ける統計モデルについて考察する。 具体的には,合成データのみを用いたトレーニングでは,モデル崩壊を回避できないことを示す。 しかし, 実データと合成データの両方を混合する場合, モデル崩壊を回避できる合成データの最大量を推定する。 我々の理論的な結論は実証的な検証によってさらに裏付けられている。

The phenomenon of model collapse, introduced in (Shumailov et al., 2023), refers to the deterioration in performance that occurs when new models are trained on synthetic data generated from previously trained models. This recursive training loop makes the tails of the original distribution disappear, thereby making future-generation models forget about the initial (real) distribution. With the aim of rigorously understanding model collapse in language models, we consider in this paper a statistical model that allows us to characterize the impact of various recursive training scenarios. Specifically, we demonstrate that model collapse cannot be avoided when training solely on synthetic data. However, when mixing both real and synthetic data, we provide an estimate of a maximal amount of synthetic data below which model collapse can eventually be avoided. Our theoretical conclusions are further supported by empirical validations.
翻訳日:2024-04-09 15:53:11 公開日:2024-04-07
# 幾何学的問題解決の促進:マルチモーダルモデル評価のための総合ベンチマーク

Advancing Geometric Problem Solving: A Comprehensive Benchmark for Multimodal Model Evaluation ( http://arxiv.org/abs/2404.05091v1 )

ライセンス: Link先を確認
Kai Sun, Yushi Bai, Nianyi Lin, (参考訳) 本稿では,GPT-4,GPT-4V,Claudeに限らず,高度な大規模言語とマルチモーダルモデルの性能を幾何計算の領域内で厳格に評価するために開発されたMM-MATHデータセットを提案する。 このデータセットは、5,929個の厳密な幾何学的問題からなり、それぞれが対応する画像と組み合わせられ、9等数学の典型的な複雑性と要件を反映する。 MM-MATHの背後にあるモチベーションは、単なる結果分析から、推論や手続き的正当性を含むより包括的な評価へと、評価方法論のパラダイムシフトを必要とするマルチモーダル技術における、急成長する関心と重要な進歩に起因している。 様々なベンチマーク性能の顕著な向上にもかかわらず、これらのモデルでは画像から幾何学的情報を正確に解析・解釈する能力が欠如しており、観察されたエラーの60%以上を占めています。 両焦点評価手法を展開し、最終結果と基礎となる問題解決プロセスの両方を検証し、現在のマルチモーダルモデルの能力と人間レベルの習熟度との間に顕著な相違を見出した。 MM-MATHの導入は、この分野への三部構成的な貢献を表しており、幾何学的問題解決技術を評価するための包括的で挑戦的なベンチマークとして機能するだけでなく、現在のモデルが示すテキストや視覚的理解における重要なギャップを照らしている。 この取り組みを通じて、これらのギャップを埋めることを目的としたさらなる研究と開発を触媒し、マルチモーダルモデル能力の新たな高みへの展開を目指す。

In this work, we present the MM-MATH dataset, a novel benchmark developed to rigorously evaluate the performance of advanced large language and multimodal models - including but not limited to GPT-4, GPT-4V, and Claude - within the domain of geometric computation. This dataset comprises 5,929 meticulously crafted geometric problems, each paired with a corresponding image, aimed at mirroring the complexity and requirements typical of ninth-grade mathematics. The motivation behind MM-MATH stems from the burgeoning interest and significant strides in multimodal technology, which necessitates a paradigm shift in assessment methodologies from mere outcome analysis to a more holistic evaluation encompassing reasoning and procedural correctness. Despite impressive gains in various benchmark performances, our analysis uncovers a persistent and notable deficiency in these models' ability to parse and interpret geometric information accurately from images, accounting for over 60% of observed errors. By deploying a dual-focused evaluation approach, examining both the end results and the underlying problem-solving processes, we unearthed a marked discrepancy between the capabilities of current multimodal models and human-level proficiency. The introduction of MM-MATH represents a tripartite contribution to the field: it not only serves as a comprehensive and challenging benchmark for assessing geometric problem-solving prowess but also illuminates critical gaps in textual and visual comprehension that current models exhibit. Through this endeavor, we aspire to catalyze further research and development aimed at bridging these gaps, thereby advancing the state of multimodal model capabilities to new heights.
翻訳日:2024-04-09 15:53:11 公開日:2024-04-07
# アクティブなテスト時間適応:理論解析とアルゴリズム

Active Test-Time Adaptation: Theoretical Analyses and An Algorithm ( http://arxiv.org/abs/2404.05094v1 )

ライセンス: Link先を確認
Shurui Gui, Xiner Li, Shuiwang Ji, (参考訳) テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。 現在、ほとんどのTTA法は小さなシフトにしか対応できず、ヒューリスティックおよび経験的研究に大きく依存している。 ドメインシフト下でのTTA向上のために,完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。 本稿では,限定ラベル付きテストインスタンスを組み込んだ学習理論解析により,理論的な保証により,テストドメイン全体のパフォーマンスが向上することを示す。 また,破滅的忘れ(CF)を避けつつ,ATTAを実装するためのエントロピーバランスのサンプルも提示した。 我々は,実時間サンプル選択手法を用いて,シンプルで効果的なATTAアルゴリズム(SimATTA)を提案する。 実験の結果,ATTA法はTTA法よりも高い性能向上を実現し,効率を保ちながら,より要求の高いアクティブドメイン適応(ADA)法と類似した有効性を有することが示された。 私たちのコードはhttps://github.com/divelab/ATTAで利用可能です。

Test-time adaptation (TTA) addresses distribution shifts for streaming test data in unsupervised settings. Currently, most TTA methods can only deal with minor shifts and rely heavily on heuristic and empirical studies. To advance TTA under domain shifts, we propose the novel problem setting of active test-time adaptation (ATTA) that integrates active learning within the fully TTA setting. We provide a learning theory analysis, demonstrating that incorporating limited labeled test instances enhances overall performances across test domains with a theoretical guarantee. We also present a sample entropy balancing for implementing ATTA while avoiding catastrophic forgetting (CF). We introduce a simple yet effective ATTA algorithm, known as SimATTA, using real-time sample selection techniques. Extensive experimental results confirm consistency with our theoretical analyses and show that the proposed ATTA method yields substantial performance improvements over TTA methods while maintaining efficiency and shares similar effectiveness to the more demanding active domain adaptation (ADA) methods. Our code is available at https://github.com/divelab/ATTA
翻訳日:2024-04-09 15:53:11 公開日:2024-04-07
# 量的弱度ハイパープレ:述語変換器による誤り度と誤り度ハイパープロパタイツの統一

Quantitative Weakest Hyper Pre: Unifying Correctness and Incorrectness Hyperproperties via Predicate Transformers ( http://arxiv.org/abs/2404.05097v1 )

ライセンス: Link先を確認
Linpeng Zhang, Noam Zilberstein, Benjamin Lucien Kaminski, Alexandra Silva, (参考訳) 本稿では,emph{nondeterministic and probabilistic} プログラム上での量的超越性について,emph{weakest pre calculus {\displaystyle \emph{weakest pre calculus} を提案する。 既存の計算では、ある量がプログラムが終了すると仮定する期待値について、状態の集合 \emph{initial set of state} や \emph{initial probability distributions {\displaystyle \emph{initial probability distribution} に対して推論することができる。 ですから (i)~ハイパーホア論理と最弱プリ計算 (ii)~ 期待値を含むいわゆる 'emph{hyperquantities' についての可能な推論は、以前の作業の範囲外にある量 (eg variance) も含む。 副産物として、既存の最強かつ最強のリベラルなポスト計算を延長する、重み付きプログラムのための新しい最強のポストを得る。 本フレームワークは, 前方変圧器と後方変圧器の両立, 正当性, 不正確性, 非終端性, 到達不能性を明らかにした。

We present a novel \emph{weakest pre calculus} for \emph{reasoning about quantitative hyperproperties} over \emph{nondeterministic and probabilistic} programs. Whereas existing calculi allow reasoning about the expected value that a quantity assumes after program termination from a \emph{single initial state}, we do so for \emph{initial sets of states} or \emph{initial probability distributions}. We thus (i)~obtain a weakest pre calculus for hyper Hoare logic and (ii)~enable reasoning about so-called \emph{hyperquantities} which include expected values but also quantities (e.g. variance) out of scope of previous work. As a byproduct, we obtain a novel strongest post for weighted programs that extends both existing strongest and strongest liberal post calculi. Our framework reveals novel dualities between forward and backward transformers, correctness and incorrectness, as well as nontermination and unreachability.
翻訳日:2024-04-09 15:53:11 公開日:2024-04-07
# StockGPT: 株価予測と取引のためのGenAIモデル

StockGPT: A GenAI Model for Stock Prediction and Trading ( http://arxiv.org/abs/2404.05101v1 )

ライセンス: Link先を確認
Dat Mai, (参考訳) 本稿では,日米株式市場のリターン履歴に基づいて事前訓練した自己回帰型「ナンバー」モデルであるStockGPTを紹介する。 各リターン級数をトークンの列として扱い、このモデルは高度に複雑なストックリターンのダイナミクスを理解し予測することに長けている。 過去の株価を使って手作りの取引パターンに頼る代わりに、StockGPTはその注意機構を通じて、将来のリターンを予測する隠された表現を自動的に学習する。 2001年から2023年までの維持試験では、StockGPT予測による日次リバランスのロングショートポートフォリオが、シャープ比6.5で毎年119%のリターンを得ている。 StockGPTベースのポートフォリオは、モーメントと長期的・短期的逆転を完全に説明し、手作業による価格ベースの戦略の必要性を排除し、主要な市場要因を包含している。 これは、複雑な金融投資決定を行う上で、AIが人間を超えるという大きな可能性を浮き彫りにし、全く異なるドメインに適用した場合、大きな言語モデルの注意機構の有効性を示す。

This paper introduces StockGPT, an autoregressive "number" model pretrained directly on the history of daily U.S. stock returns. Treating each return series as a sequence of tokens, the model excels at understanding and predicting the highly intricate stock return dynamics. Instead of relying on handcrafted trading patterns using historical stock prices, StockGPT automatically learns the hidden representations predictive of future returns via its attention mechanism. On a held-out test sample from 2001 to 2023, a daily rebalanced long-short portfolio formed from StockGPT predictions earns an annual return of 119% with a Sharpe ratio of 6.5. The StockGPT-based portfolio completely explains away momentum and long-/short-term reversals, eliminating the need for manually crafted price-based strategies and also encompasses most leading stock market factors. This highlights the immense promise of generative AI in surpassing human in making complex financial investment decisions and illustrates the efficacy of the attention mechanism of large language models when applied to a completely different domain.
翻訳日:2024-04-09 15:53:11 公開日:2024-04-07
# LHU-Net: 低コストで高性能な医用医用画像分割のための軽量ハイブリッドU-Net

LHU-Net: A Light Hybrid U-Net for Cost-Efficient, High-Performance Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2404.05102v1 )

ライセンス: Link先を確認
Yousef Sadegheih, Afshin Bozorgpour, Pratibha Kumari, Reza Azad, Dorit Merhof, (参考訳) 医用画像解析におけるトランスフォーマーアーキテクチャの台頭,特に医用画像セグメンテーションの分野において,畳み込みニューラルネットワーク(CNN)とトランスフォーマーの利点を融合させるハイブリッドモデルが多数作成されている。 これらのハイブリッドモデルは、セグメンテーションの精度を大幅に改善することで、顕著な成功を収めた。 しかし、この進歩はしばしば、パラメータと計算要求の両方の観点から、モデルの複雑さが増大するコストが伴う。 さらに、これらのモデルの多くは、空間的特徴とチャネル的特徴の間の重要な相互作用を考慮せず、セグメント化の結果をさらに洗練し改善する可能性がある。 そこで本研究では,医療画像のボリューム分割に最適化された軽量ハイブリッドU-NetアーキテクチャであるLHU-Netを紹介する。 LHU-Netは、より深い層におけるチャネルベースの特徴に焦点を移す前に、初期層における空間的特徴分析を慎重に優先順位付けするように設計されている。 Synapse、LA、Pancreas、ACDC、BRaTS 2018という5つのベンチマークデータセットの厳密な評価は、LHU-Netの優れたパフォーマンスを強調し、効率性と正確性を示す。 特に、LHU-Netは、ACDCデータセットでDiceスコア92.66を達成するなど、新しいパフォーマンスベンチマークを設定し、同時にパラメータを85%削減し、既存の最先端モデルと比較して計算負荷を4分の1に減らした。 事前トレーニングや追加データ、モデルアンサンブルに頼らずに、LHU-Netの有効性は、すべての評価データセットの最先端のパフォーマンスによって証明され、1100万以上のパラメータを使用する。 この成果は、医用画像のセグメンテーションにおいて高い精度で計算効率をバランスさせることが可能であることを強調している。 LHU-Netの実装はGitHubのリサーチコミュニティで自由に利用できます。

As a result of the rise of Transformer architectures in medical image analysis, specifically in the domain of medical image segmentation, a multitude of hybrid models have been created that merge the advantages of Convolutional Neural Networks (CNNs) and Transformers. These hybrid models have achieved notable success by significantly improving segmentation accuracy. Yet, this progress often comes at the cost of increased model complexity, both in terms of parameters and computational demand. Moreover, many of these models fail to consider the crucial interplay between spatial and channel features, which could further refine and improve segmentation outcomes. To address this, we introduce LHU-Net, a Light Hybrid U-Net architecture optimized for volumetric medical image segmentation. LHU-Net is meticulously designed to prioritize spatial feature analysis in its initial layers before shifting focus to channel-based features in its deeper layers, ensuring a comprehensive feature extraction process. Rigorous evaluation across five benchmark datasets - Synapse, LA, Pancreas, ACDC, and BRaTS 2018 - underscores LHU-Net's superior performance, showcasing its dual capacity for efficiency and accuracy. Notably, LHU-Net sets new performance benchmarks, such as attaining a Dice score of 92.66 on the ACDC dataset, while simultaneously reducing parameters by 85% and quartering the computational load compared to existing state-of-the-art models. Achieved without any reliance on pre-training, additional data, or model ensemble, LHU-Net's effectiveness is further evidenced by its state-of-the-art performance across all evaluated datasets, utilizing fewer than 11 million parameters. This achievement highlights that balancing computational efficiency with high accuracy in medical image segmentation is feasible. Our implementation of LHU-Net is freely accessible to the research community on GitHub.
翻訳日:2024-04-09 15:53:11 公開日:2024-04-07
# VMambaMorph: 変形可能な3D画像登録のためのクロススキャンモジュールを備えたVisual Mambaベースのフレームワーク

VMambaMorph: a Visual Mamba-based Framework with Cross-Scan Module for Deformable 3D Image Registration ( http://arxiv.org/abs/2404.05105v1 )

ライセンス: Link先を確認
Ziyang Wang, Jian-Qing Zheng, Chao Ma, Tao Guo, (参考訳) 医用画像における重要なプロセスである画像登録では、異なる医療用画像データを単一の統一座標系に整列させる。 畳み込みニューラルネットワーク(CNN)ベースのVoxelMorph、ビジョントランスフォーマー(ViT)ベースのTransMorph、ステートスペースモデル(SSM)ベースのMambaMorphといったディープラーニングネットワークは、この領域で効果的なパフォーマンスを示している。 最近のVisual State Space Model(VMamba)は、SSMとクロススキャンモジュールを組み込んだもので、コンピュータビジョンタスクの効率的な計算コストで、グローバルレンジの依存関係をモデル化する上で、有望な改善がなされている。 本稿では,VMambaMorphという画像登録機能を備えたVMambaの探索について紹介する。 このハイブリッドVMamba-CNNネットワークは、特に3D画像登録用に設計されている。 U字型ネットワークアーキテクチャを利用するVMambaMorphは、ターゲットとソースのボリュームに基づいて変形場を計算する。 2次元クロススキャンモジュールを持つVMambaベースのブロックを3次元ボリューム特徴処理のために再設計し,高次元特徴学習のための細粒度特徴抽出モジュールを提案する。 我々は,VMambaMorphを公開ベンチマーク脳MR-CT登録データセットを用いて検証し,その性能を現在の最先端手法と比較した。 その結果,VMambaMorphは競争力のある登録品質を達成できることが示唆された。 VMambaMorphのコードはGitHubで入手できる。

Image registration, a critical process in medical imaging, involves aligning different sets of medical imaging data into a single unified coordinate system. Deep learning networks, such as the Convolutional Neural Network (CNN)-based VoxelMorph, Vision Transformer (ViT)-based TransMorph, and State Space Model (SSM)-based MambaMorph, have demonstrated effective performance in this domain. The recent Visual State Space Model (VMamba), which incorporates a cross-scan module with SSM, has exhibited promising improvements in modeling global-range dependencies with efficient computational cost in computer vision tasks. This paper hereby introduces an exploration of VMamba with image registration, named VMambaMorph. This novel hybrid VMamba-CNN network is designed specifically for 3D image registration. Utilizing a U-shaped network architecture, VMambaMorph computes the deformation field based on target and source volumes. The VMamba-based block with 2D cross-scan module is redesigned for 3D volumetric feature processing, and a fine-grained feature extraction module is proposed for high-dimensional feature learning. We validate VMambaMorph using a public benchmark brain MR-CT registration dataset, comparing its performance against current state-of-the-art methods. The results indicate that VMambaMorph achieves competitive registration quality. The code for VMambaMorph is available on GitHub.
翻訳日:2024-04-09 15:53:11 公開日:2024-04-07
# 3Dプリンティングデザインファイルにステゴチャンネルを消毒する「Stealing My Data」

Stop Stealing My Data: Sanitizing Stego Channels in 3D Printing Design Files ( http://arxiv.org/abs/2404.05106v1 )

ライセンス: Link先を確認
Aleksandr Dolgavin, Mark Yampolskiy, Moti Yung, (参考訳) 添加物製造(AM)の採用の増加とAMアウトソーシングの受け入れにより、異なるアクターによるデジタルデザインの送受信が正常になるエコシステムが形成された。 最近、STL設計ファイル(最も一般的にAMで使用される)がステガノグラフィーチャネルを含んでいることが示されている。 このようなチャネルは、印刷されたモデルを変更することなく、追加のデータをSTLファイル内に埋め込むことができる。 これらの要因は、盗難された機密デジタルデータを組織から流出させるか、悪意のあるソフトウェアを安全な環境に侵入させるために、設計ファイルを秘密の通信チャネルとして誤用する恐れがある。 本稿では,ステガノグラフィーチャネルが存在する可能性のある隠されたコンテンツを消去する「emph{sanitizer}」を設計し,評価することで,このセキュリティ上の脅威に対処する。 提案したサニタイザは、そのサニタイズされた設計を用いて要求される品質の一部を製造する能力に影響を与えないなど、アプリケーションドメインによって課される特定の制約を考慮に入れている。

The increased adoption of additive manufacturing (AM) and the acceptance of AM outsourcing created an ecosystem in which the sending and receiving of digital designs by different actors became normal. It has recently been shown that the STL design files -- most commonly used in AM -- contain steganographic channels. Such channels can allow additional data to be embedded within the STL files without changing the printed model. These factors create a threat of misusing the design files as a covert communication channel to either exfiltrate stolen sensitive digital data from organizations or infiltrate malicious software into a secure environment. This paper addresses this security threat by designing and evaluating a \emph{sanitizer} that erases hidden content where steganographic channels might exist. The proposed sanitizer takes into account a set of specific constraints imposed by the application domain, such as not affecting the ability to manufacture part of the required quality using the sanitized design.
翻訳日:2024-04-09 15:53:11 公開日:2024-04-07
# 教師なし学習による3T fMRIデータからの網膜画像再構成

Reconstructing Retinal Visual Images from 3T fMRI Data Enhanced by Unsupervised Learning ( http://arxiv.org/abs/2404.05107v1 )

ライセンス: Link先を確認
Yujian Xiong, Wenhui Zhu, Zhong-Lin Lu, Yalin Wang, (参考訳) 脳活動、特に機能的磁気共鳴イメージング(fMRI)による人間の視覚入力の再構築は、人間の視覚系のメカニズムを解明するための有望な道を開く。 視覚再建の質と解釈性を改善するためのディープラーニング手法による大きな進歩にもかかわらず、高品質で長期化され、主題固有の7-Tesla fMRI実験は依然としてかなりの需要がある。 この課題は、多様な3つのTeslaデータセットを統合することや、短時間で低品質のfMRIスキャンで新しい被験者を収容することにある。 これらの制約に応えて、7Tと3Tの2つの異なるfMRIデータセット間での未ペアリングトレーニングを生かし、教師なしのGAN(Generative Adversarial Network)を介して拡張された3T fMRIデータを生成する新しいフレームワークを提案する。 このアプローチは、高品質な7-Teslaデータの不足と、3-Tesla実験における短時間で低品質なスキャンに関連する課題の限界を克服することを目的としている。 本稿では,3T fMRIデータの再構成能力を実証し,単一の被験者で訓練・テストしたデータ集約手法と比較して,優れた入力画像を生成する能力を強調した。

The reconstruction of human visual inputs from brain activity, particularly through functional Magnetic Resonance Imaging (fMRI), holds promising avenues for unraveling the mechanisms of the human visual system. Despite the significant strides made by deep learning methods in improving the quality and interpretability of visual reconstruction, there remains a substantial demand for high-quality, long-duration, subject-specific 7-Tesla fMRI experiments. The challenge arises in integrating diverse smaller 3-Tesla datasets or accommodating new subjects with brief and low-quality fMRI scans. In response to these constraints, we propose a novel framework that generates enhanced 3T fMRI data through an unsupervised Generative Adversarial Network (GAN), leveraging unpaired training across two distinct fMRI datasets in 7T and 3T, respectively. This approach aims to overcome the limitations of the scarcity of high-quality 7-Tesla data and the challenges associated with brief and low-quality scans in 3-Tesla experiments. In this paper, we demonstrate the reconstruction capabilities of the enhanced 3T fMRI data, highlighting its proficiency in generating superior input visual images compared to data-intensive methods trained and tested on a single subject.
翻訳日:2024-04-09 15:53:11 公開日:2024-04-07
# リー代数対称性を用いた変分量子回路の高効率勾配推定

Efficient Gradient Estimation of Variational Quantum Circuits with Lie Algebraic Symmetries ( http://arxiv.org/abs/2404.05108v1 )

ライセンス: Link先を確認
Mohsen Heidari, Masih Mozakka, Wojciech Szpankowski, (参考訳) ハイブリッド量子古典最適化と学習戦略は、量子情報を利用したり、古典的手法よりも量子的優位性を得るための最も有望なアプローチの一つである。 しかし、ヒルベルト空間の指数的次元性や量子測度の情報損失などいくつかの要因により、そのようなモデルにおける目的関数の勾配の効率的な推定は依然として困難である。 本研究では,変分手法の文脈における汎用パラメータ化回路について検討する。 リー代数や群論によって特徴づけられるハミルトニアンの代数対称性を利用する勾配推定の枠組みを開発する。 特に、動的リー代数の次元がキュービット数の多項式であるとき、多項式古典的および量子的資源で勾配を推定できる。 これは、アンザッツの出力に対して一連のアダマール試験によって行われ、回路の変更はない。 提案手法は,従来のシャドウトモグラフィーを用いて,パラメータ数と対数的にスケールする計測ショットの複雑さをさらに低減できることを示す。

Hybrid quantum-classical optimization and learning strategies are among the most promising approaches to harnessing quantum information or gaining a quantum advantage over classical methods. However, efficient estimation of the gradient of the objective function in such models remains a challenge due to several factors including the exponential dimensionality of the Hilbert spaces, and information loss of quantum measurements. In this work, we study generic parameterized circuits in the context of variational methods. We develop a framework for gradient estimation that exploits the algebraic symmetries of Hamiltonian characterized through Lie algebra or group theory. Particularly, we prove that when the dimension of the dynamical Lie algebra is polynomial in the number of qubits, one can estimate the gradient with polynomial classical and quantum resources. This is done by a series of Hadamard tests applied to the output of the ansatz with no change to its circuit. We show that this approach can be equipped with classical shadow tomography to further reduce the measurement shot complexity to scale logarithmically with the number of parameters.
翻訳日:2024-04-09 15:53:11 公開日:2024-04-07
# MODNO:分散ニューラルネットワークによるマルチオペレータ学習

MODNO: Multi Operator Learning With Distributed Neural Operators ( http://arxiv.org/abs/2404.02892v2 )

ライセンス: Link先を確認
Zecheng Zhang, (参考訳) 演算子学習の研究には、ニューラルネットワークを近似演算子に利用することが含まれる。 従来はシングルオペレータラーニング(SOL)に重点を置いてきた。 しかし、近年の進歩により、数百万から数十億のトレーニング可能なパラメータを備えた基礎モデルを用いて、複数の演算子の近似を含むように急速に拡張され、マルチ演算学習(MOL)の研究へと繋がった。 本稿では,より少ないパラメータを持つ1つのニューラル演算子に対して,新たな平均コストを伴わずに,マルチオペレータ学習の課題に効果的に取り組むための分散トレーニング手法を提案する。 本手法は,Deep Operator Neural Networks (DON) など,様々なニューラルネットワークに適用可能である。 中心となる考え方は、各演算子の出力基底関数を専用データを用いて独立に学習し、同時にデータセット全体を使用してすべての演算子が共有する入力関数の学習を集中させることである。 5つの数値例の体系的な研究を通して、各演算子に対して1つのニューラル演算子を個別に訓練する精度とコストを、提案手法を用いてMOLモデルを訓練するのと比較した。 その結果,効率が向上し,精度も良好であった。 さらに,本手法では,MOL学習を通じて類似演算子のデータを用いて,限られたデータを持つ演算子をより効率的に構築できることを示す。 これは、演算子学習を促進する別のMOLの可能性を強調します。

The study of operator learning involves the utilization of neural networks to approximate operators. Traditionally, the focus has been on single-operator learning (SOL). However, recent advances have rapidly expanded this to include the approximation of multiple operators using foundation models equipped with millions or billions of trainable parameters, leading to the research of multi-operator learning (MOL). In this paper, we present a novel distributed training approach aimed at enabling a single neural operator with significantly fewer parameters to effectively tackle multi-operator learning challenges, all without incurring additional average costs. Our method is applicable to various neural operators, such as Deep Operator Neural Networks (DON). The core idea is to independently learn the output basis functions for each operator using its dedicated data, while simultaneously centralizing the learning of the input function encoding shared by all operators using the entire dataset. Through a systematic study of five numerical examples, we compare the accuracy and cost of training a single neural operator for each operator independently versus training a MOL model using our proposed method. Our results demonstrate enhanced efficiency and satisfactory accuracy. Moreover, our approach illustrates that some operators with limited data can be more effectively constructed with the aid of data from analogous operators through MOL learning. This highlights another MOL's potential to bolster operator learning.
翻訳日:2024-04-09 13:16:25 公開日:2024-04-07
# 厚線形状における物体の位置と幅の計算のための線形アンコールガウス混合モデル

Linear Anchored Gaussian Mixture Model for Location and Width Computation of Objects in Thick Line Shape ( http://arxiv.org/abs/2404.03043v2 )

ライセンス: Link先を確認
Nafaa Nacereddine, Aicha Baya Goumeidane, Djemel Ziou, (参考訳) 線形物体の中心線を正確に検出することは、道路交通におけるX線イメージング、リモートセンシング、レーンマーキング検出といった多くのセンシティブな現実世界のアプリケーションにおいて難しいトピックである。 Hough および Radon 変換を用いたモデルベースアプローチはよく用いられるが、厚みのある線検出には推奨されない。 本稿では,画像の灰色レベルの3次元表現を統計的分布の有限混合モデルとして考慮し,画像中の線形構造を検出することを目的とする。 後者は、線形アンカー付きガウス分布をスケール値 ${\sigma}$ でパラメータ化することができ、線形構造厚と直線方程式をパラメータ化して、半径 ${\rho}$ と向き角 ${\theta}$ でパラメータ化する。 予測最大化 (EM) アルゴリズムを混合モデルパラメータ推定に用いて, 確率関数計算のバックグラウンドサブトラクションを用いた新しいパラダイムを提案する。 EMアルゴリズムでは、2つの${\theta}$パラメータ初期化スキームが使用される: 1つは${\theta}$ベクトルの第1成分のランダムな選択に基づいており、もう1つは混合モデル成分の同時計算による画像 Hessian に基づいている。 実世界の画像と合成画像のぼかしと加法雑音による劣化実験により提案手法の性能が向上し,不規則な画像背景やぼかしやノイズの有無に関わらず,背景部分抽出とヘシアンベース${\theta}$初期化を用いたアルゴリズムにより,線形構造検出の顕著な精度が得られた。

An accurate detection of the centerlines of linear objects is a challenging topic in many sensitive real-world applications such X-ray imaging, remote sensing and lane marking detection in road traffic. Model-based approaches using Hough and Radon transforms are often used but, are not recommended for thick line detection, whereas approaches based on image derivatives need further step-by-step processing, making their efficiency dependent on each step outcomes. In this paper, we aim to detect linear structures found in images by considering the 3D representation of the image gray levels as a finite mixture model of statistical distribution. The latter, which we named linear anchored Gaussian distribution could be parametrized by a scale value ${\sigma}$ describing the linear structure thickness and a line equation, parametrized, in turn, by a radius ${\rho}$ and an orientation angle ${\theta}$, describing the linear structure centerline location. Expectation-Maximization (EM) algorithm is used for the mixture model parameter estimation, where a new paradigm, using the background subtraction for the likelihood function computation, is proposed. For the EM algorithm, two ${\theta}$ parameter initialization schemes are used: the first one is based on a random choice of the first component of ${\theta}$ vector, whereas the second is based on the image Hessian with a simultaneous computation of the mixture model components number. Experiments on real world images and synthetic images corrupted by blur and additive noise show the good performance of the proposed methods, where the algorithm using background subtraction and Hessian-based ${\theta}$ initialization provides an outstanding accuracy of the linear structure detection despite irregular image background and presence of blur and noise.
翻訳日:2024-04-09 13:16:25 公開日:2024-04-07
# 自己指導型リコメンデーション学習に関する総合的調査

A Comprehensive Survey on Self-Supervised Learning for Recommendation ( http://arxiv.org/abs/2404.03354v2 )

ライセンス: Link先を確認
Xubin Ren, Wei Wei, Lianghao Xia, Chao Huang, (参考訳) レコメンダシステムは、個々のユーザの好みに基づいてパーソナライズされたレコメンデーションを提供することによって、情報過負荷の課題に取り組む上で重要な役割を果たす。 RNN、GNN、Transformerアーキテクチャといったディープラーニング技術は、ユーザの行動や好みの理解を深めることで、推奨システムの進歩を著しく促進している。 しかし,教師付き学習手法は,データ疎性による現実シナリオの課題に遭遇し,表現を効果的に学習する能力に限界が生じる。 これを解決するために、自己教師付き学習(SSL)技術がソリューションとして登場し、ラベル付きデータのみに頼ることなく、固有のデータ構造を利用して監視信号を生成する。 ラベルのないデータを活用して意味のある表現を抽出することにより、SSLを利用するレコメンダシステムは、データの疎さに直面した場合でも、正確な予測とレコメンデーションを行うことができる。 本稿では,レコメンダシステム用に設計された自己教師型学習フレームワークの総合的なレビューを行い,約170件の論文を網羅的に分析する。 9つの異なるシナリオを探索し、異なるコンテキストにおけるSSL強化レコメンデータの包括的な理解を可能にします。 各ドメインについて,異なる自己指導型学習パラダイム,すなわちコントラスト学習,生成学習,対人学習について詳述し,SSLが様々なコンテキストにおいてレコメンダシステムをどのように強化するかの技術的詳細を述べる。 私たちは、関連するオープンソース資料をhttps://github.com/HKUDS/Awesome-SSLRec-Papersで一貫して管理しています。

Recommender systems play a crucial role in tackling the challenge of information overload by delivering personalized recommendations based on individual user preferences. Deep learning techniques, such as RNNs, GNNs, and Transformer architectures, have significantly propelled the advancement of recommender systems by enhancing their comprehension of user behaviors and preferences. However, supervised learning methods encounter challenges in real-life scenarios due to data sparsity, resulting in limitations in their ability to learn representations effectively. To address this, self-supervised learning (SSL) techniques have emerged as a solution, leveraging inherent data structures to generate supervision signals without relying solely on labeled data. By leveraging unlabeled data and extracting meaningful representations, recommender systems utilizing SSL can make accurate predictions and recommendations even when confronted with data sparsity. In this paper, we provide a comprehensive review of self-supervised learning frameworks designed for recommender systems, encompassing a thorough analysis of over 170 papers. We conduct an exploration of nine distinct scenarios, enabling a comprehensive understanding of SSL-enhanced recommenders in different contexts. For each domain, we elaborate on different self-supervised learning paradigms, namely contrastive learning, generative learning, and adversarial learning, so as to present technical details of how SSL enhances recommender systems in various contexts. We consistently maintain the related open-source materials at https://github.com/HKUDS/Awesome-SSLRec-Papers.
翻訳日:2024-04-09 13:16:25 公開日:2024-04-07
# 言語モデルのバイアス解析における非定常ノルムの影響

The Impact of Unstated Norms in Bias Analysis of Language Models ( http://arxiv.org/abs/2404.03471v2 )

ライセンス: Link先を確認
Farnaz Kohankhaki, Jacob-Junqi Tian, David Emerson, Laleh Seyyed-Kalantari, Faiza Khan Khattak, (参考訳) 膨大なデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、過度な差別から暗黙的なステレオタイプに至るまで、さまざまな形式で現れるバイアスを運ぶことができる。 偏見の1つの側面は、LLMのパフォーマンス格差であり、しばしば人種的少数派のような未成年集団に害を与える。 バイアスを定量化するための一般的なアプローチは、テンプレートベースのバイアスプローブを使用することであり、これは明示的にグループメンバーシップ(例えばホワイト)をステートし、タスクの結果、例えば感情分析(英語版)がグループメンバーシップの変更(例えばホワイトレースをブラックに変更)に不変であるかどうかを評価する。 このアプローチはバイアス定量化に広く用いられている。 しかし,本研究では,LCMの偏差定量化にテンプレートベースのプローブを用いることで,予期せぬ見過ごされた結果の証拠を見出した。 その結果、白人の民族に関連するテキストの例は、高い率で否定的な感情を示すものとして分類されていることが判明した。 我々は, LLMの事前学習テキストと, 明示的な言明を伴わずにグループメンバシップを示唆する未定の規範である報告バイアスによってバイアスを測定するテンプレートとのミスマッチによって, シナリオが人工的に発生すると仮定する。 我々の発見は、偏見定量化における明示的な言及を通して、様々なグループメンバーシップの潜在的な誤解を招く影響を浮き彫りにする。

Large language models (LLMs), trained on vast datasets, can carry biases that manifest in various forms, from overt discrimination to implicit stereotypes. One facet of bias is performance disparities in LLMs, often harming underprivileged groups, such as racial minorities. A common approach to quantifying bias is to use template-based bias probes, which explicitly state group membership (e.g. White) and evaluate if the outcome of a task, sentiment analysis for instance, is invariant to the change of group membership (e.g. change White race to Black). This approach is widely used in bias quantification. However, in this work, we find evidence of an unexpectedly overlooked consequence of using template-based probes for LLM bias quantification. We find that in doing so, text examples associated with White ethnicities appear to be classified as exhibiting negative sentiment at elevated rates. We hypothesize that the scenario arises artificially through a mismatch between the pre-training text of LLMs and the templates used to measure bias through reporting bias, unstated norms that imply group membership without explicit statement. Our finding highlights the potential misleading impact of varying group membership through explicit mention in bias quantification
翻訳日:2024-04-09 13:16:25 公開日:2024-04-07
# RaFE: 生成放射界の復元

RaFE: Generative Radiance Fields Restoration ( http://arxiv.org/abs/2404.03654v2 )

ライセンス: Link先を確認
Zhongkai Wu, Ziyu Wan, Jing Zhang, Jing Liao, Dong Xu, (参考訳) NeRF(Neural Radiance Fields)は、新しいビュー合成と3次元再構成において大きな可能性を示しているが、その性能は入力画像の品質に敏感であり、低品質のスパース入力視点で高忠実なレンダリングを実現するのに苦慮している。 従来のNeRF修復法は、回復の一般性を無視して、特定の劣化タイプに合わせて調整されている。 この制限を克服するために、低分解能、ぼかし、ノイズ、圧縮アーティファクト、またはそれらの組み合わせなど、様々な種類の劣化に適用できる、RaFEと呼ばれる一般的な放射場復元パイプラインを提案する。 提案手法は,市販の2D復元手法の成功を利用して,個別に多視点画像を復元する手法である。 不整合を平均化することによって、ぼやけたNeRFを再構築する代わりに、多視点画像に現れる幾何的および外観上の不整合をよりよく適合させるために、GAN(Generative Adversarial Networks)を用いて新しいアプローチを導入する。 具体的には、低品質のNeRFを表すために粗面が固定されている2層三面体アーキテクチャを採用し、粗面に付加される微細な残留三面体をGANによる分布としてモデル化し、復元における潜在的変動を捉える。 各種修復作業におけるRaFEの有効性を検証し, 定量評価と定性評価の両方において優れた性能を示し, 単独作業に特有な他の3次元修復方法を上回った。 プロジェクトのWebサイト https://zkaiwu.github.io/RaFE-Project/をご覧ください。

NeRF (Neural Radiance Fields) has demonstrated tremendous potential in novel view synthesis and 3D reconstruction, but its performance is sensitive to input image quality, which struggles to achieve high-fidelity rendering when provided with low-quality sparse input viewpoints. Previous methods for NeRF restoration are tailored for specific degradation type, ignoring the generality of restoration. To overcome this limitation, we propose a generic radiance fields restoration pipeline, named RaFE, which applies to various types of degradations, such as low resolution, blurriness, noise, compression artifacts, or their combinations. Our approach leverages the success of off-the-shelf 2D restoration methods to recover the multi-view images individually. Instead of reconstructing a blurred NeRF by averaging inconsistencies, we introduce a novel approach using Generative Adversarial Networks (GANs) for NeRF generation to better accommodate the geometric and appearance inconsistencies present in the multi-view images. Specifically, we adopt a two-level tri-plane architecture, where the coarse level remains fixed to represent the low-quality NeRF, and a fine-level residual tri-plane to be added to the coarse level is modeled as a distribution with GAN to capture potential variations in restoration. We validate RaFE on both synthetic and real cases for various restoration tasks, demonstrating superior performance in both quantitative and qualitative evaluations, surpassing other 3D restoration methods specific to single task. Please see our project website https://zkaiwu.github.io/RaFE-Project/.
翻訳日:2024-04-09 13:16:25 公開日:2024-04-07