このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240706となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 生成型AI大規模言語モデルにおけるAI安全性に関する調査
AI Safety in Generative AI Large Language Models: A Survey ( http://arxiv.org/abs/2407.18369v1 ) ライセンス: Link先を確認 | Jaymari Chua, Yun Li, Shiyi Yang, Chen Wang, Lina Yao, | (参考訳) 生成AI能力を示すChatGPTのような大規模言語モデル(LLM)は、採用とイノベーションの加速に直面している。
生成AI(GAI)の存在の増加は、これらのモデルに関連するリスクと安全性に対する懸念を必然的に高める。
この記事では、コンピュータ科学者の視点からAI安全研究におけるAI-LLMの最近の動向について、最新の調査である、具体的および技術的考察を提供する。
本研究では,LLMが生成言語モデルであることの背景とリスクを考察し,LLMの研究開発と応用において,異なる安全性課題の統一理論の必要性を強調した。
関連文献を参考に,LLMの作業の簡潔な紹介から議論を始める。
次に, 生成モデルの基本的制約, あるいはその理解の欠如(例えば, LLMがパラメータ数でスケールするなど, 性能と安全性のトレードオフ)を指摘した初期の研究について論じる。
我々は,LLMのアライメントを十分に網羅し,様々なアプローチを開拓し,手法に挑戦し,LLMと人間の嗜好の整合に関わる課題を提示する。
文献のギャップと実装の監視の可能性を強調することで、LLMにおけるAI安全性に対処するための洞察を提供し、整合性とセキュアなモデルの開発を促進するための総合的な分析を作ることを目標としています。
我々は、AI安全のためのLLMの将来的な方向性について議論し、この重要な領域における進行中の研究に関する洞察を提供することで、調査を締めくくります。
Large Language Model (LLMs) such as ChatGPT that exhibit generative AI capabilities are facing accelerated adoption and innovation. The increased presence of Generative AI (GAI) inevitably raises concerns about the risks and safety associated with these models. This article provides an up-to-date survey of recent trends in AI safety research of GAI-LLMs from a computer scientist's perspective: specific and technical. In this survey, we explore the background and motivation for the identified harms and risks in the context of LLMs being generative language models; our survey differentiates by emphasising the need for unified theories of the distinct safety challenges in the research development and applications of LLMs. We start our discussion with a concise introduction to the workings of LLMs, supported by relevant literature. Then we discuss earlier research that has pointed out the fundamental constraints of generative models, or lack of understanding thereof (e.g., performance and safety trade-offs as LLMs scale in number of parameters). We provide a sufficient coverage of LLM alignment -- delving into various approaches, contending methods and present challenges associated with aligning LLMs with human preferences. By highlighting the gaps in the literature and possible implementation oversights, our aim is to create a comprehensive analysis that provides insights for addressing AI safety in LLMs and encourages the development of aligned and secure models. We conclude our survey by discussing future directions of LLMs for AI safety, offering insights into ongoing research in this critical area. | 翻訳日:2024-08-05 01:25:56 公開日:2024-07-06 |
# 修正バットアルゴリズム:複雑・実世界の問題を解くための新しい提案されたアプローチ
Modified Bat Algorithm: A Newly Proposed Approach for Solving Complex and Real-World Problems ( http://arxiv.org/abs/2407.15318v1 ) ライセンス: Link先を確認 | Shahla U. Umar, Tarik A. Rashid, Aram M. Ahmed, Bryar A. Hassan, Mohammed Rashad Baker, | (参考訳) Bat Algorithm (BA) は、複雑な問題空間を効率的に探索し、準最適解を見つけるために設計された、自然に着想を得たメタヒューリスティック検索アルゴリズムである。
このアルゴリズムはコウモリのエコー位置行動にインスパイアされ、コウモリは距離を推定し獲物を狩る信号システムとして機能する。
BAは様々な最適化問題に有効であることが証明されているが、探索能力と局所最適性への感受性が制限されている。
このアルゴリズムは現在のグローバルベストソリューションに基づいて速度と位置を更新し、すべてのエージェントが特定の場所に収束し、最適化問題における局所的な最適問題を引き起こす可能性がある。
そこで本研究では,修正バットアルゴリズム (MBA) を,元のBAで観測された局所最適値制限に対処するための拡張として提案する。
MBAは、現在の最適解の周波数と速度を取り入れ、最適解への収束速度を向上し、局所的最適進入を防止する。
元々のBAは多様性の問題に直面しているが、元々のBAとMBAはどちらも導入されている。
MBAの性能を評価するために,従来のBA, Particle Swarm Optimization (PSO), Genetic Algorithm (GA), Dragonfly Algorithm (DA) の3つのテスト関数(古典的ベンチマーク関数, CEC2005, CEC2019)を用いる。
これらの結果は、MBAが他のアルゴリズムよりも優れていることを示している。
さらに、MBAは、線形プログラミング手法を用いて伝統的に解決された実世界の代入問題(コールセンター問題)に、良好な結果で対処することに成功した。
Bat Algorithm (BA) is a nature-inspired metaheuristic search algorithm designed to efficiently explore complex problem spaces and find near-optimal solutions. The algorithm is inspired by the echolocation behavior of bats, which acts as a signal system to estimate the distance and hunt prey. Although the BA has proven effective for various optimization problems, it exhibits limited exploration ability and susceptibility to local optima. The algorithm updates velocities and positions based on the current global best solution, causing all agents to converge towards a specific location, potentially leading to local optima issues in optimization problems. On this premise, this paper proposes the Modified Bat Algorithm (MBA) as an enhancement to address the local optima limitation observed in the original BA. MBA incorporates the frequency and velocity of the current best solution, enhancing convergence speed to the optimal solution and preventing local optima entrapment. While the original BA faces diversity issues, both the original BA and MBA are introduced. To assess MBAs performance, three sets of test functions (classical benchmark functions, CEC2005, and CEC2019) are employed, with results compared to those of the original BA, Particle Swarm Optimization (PSO), Genetic Algorithm (GA), and Dragonfly Algorithm (DA). The outcomes demonstrate the MBAs significant superiority over other algorithms. Additionally, MBA successfully addresses a real-world assignment problem (call center problem), traditionally solved using linear programming methods, with satisfactory results. | 翻訳日:2024-07-28 18:29:13 公開日:2024-07-06 |
# インテリジェントトランスポートシステムにおけるデータポジショニング攻撃に関する調査
Data Poisoning Attacks in Intelligent Transportation Systems: A Survey ( http://arxiv.org/abs/2407.15855v1 ) ライセンス: Link先を確認 | Feilong Wang, Xin Wang, Xuegang Ban, | (参考訳) 新興技術は、インテリジェントトランスポーテーションシステム(ITS)の継続的な転換を推進している。
この変革はサイバーセキュリティの懸念を巻き起こし、データ中毒攻撃はITSがデータにますます依存する新たな脅威として出現する。
データ中毒攻撃では、攻撃者は悪意のある摂動をデータセットに注入し、オフライン学習とリアルタイム意思決定プロセスの不正確な結果につながる可能性がある。
本稿では、ITSに対するデータ中毒攻撃モデルに焦点を当てる。
我々は、このような攻撃のステージングを可能にする中毒攻撃やアプリケーションシナリオに脆弱な主要なITSデータソースを特定します。
サイバーセキュリティから厳格な研究プロセスを経て、一般的なフレームワークが開発され、また、特定のITSアプリケーションのニーズも考慮されている。
ITSに対するデータ中毒攻撃は、フレームワークに従ってレビューされ分類される。
次に、これらの攻撃モデルの現在の限界と今後の研究方向性について議論する。
我々の研究は、ITSアプリケーションに対するデータ中毒攻撃の脅威をよりよく理解するためのガイドラインとして機能し、また、信頼に値するITSの今後の発展を展望する。
Emerging technologies drive the ongoing transformation of Intelligent Transportation Systems (ITS). This transformation has given rise to cybersecurity concerns, among which data poisoning attack emerges as a new threat as ITS increasingly relies on data. In data poisoning attacks, attackers inject malicious perturbations into datasets, potentially leading to inaccurate results in offline learning and real-time decision-making processes. This paper concentrates on data poisoning attack models against ITS. We identify the main ITS data sources vulnerable to poisoning attacks and application scenarios that enable staging such attacks. A general framework is developed following rigorous study process from cybersecurity but also considering specific ITS application needs. Data poisoning attacks against ITS are reviewed and categorized following the framework. We then discuss the current limitations of these attack models and the future research directions. Our work can serve as a guideline to better understand the threat of data poisoning attacks against ITS applications, while also giving a perspective on the future development of trustworthy ITS. | 翻訳日:2024-07-28 18:29:13 公開日:2024-07-06 |
# Pseudo-Gaussian Orthogonal Ensemble of Real Random Matrices
Pseudo-Gaussian Orthogonal Ensemble of Real Random Matrices ( http://arxiv.org/abs/1802.04588v2 ) ライセンス: Link先を確認 | Sachin Kumar, Amit Kumar, S M Yusuf, | (参考訳) ここでは、2つの実非ゼロパラメータ $\lambda$ と $\mu$ を用いて、大数の擬ガウス直交アンサンブル$N$ of $n \times n$$$$n$ even and large) 実擬対称行列 $\eta$ using $ \mathcal {N}=n(n+1)/2$ 独立で等分散な乱数をそれらの元として構成し、固有値の統計的性質を調査する。
$\lambda \mu >0$ の場合、擬対称行列は実対称行列に類似していることを示し、したがってすべての固有値は実数であり、したがってスペクトル分布はウィグナーの統計量を満たす。
しかし、$\lambda \mu <0$ の場合、固有値は実対か複素共役対である。
これらの実固有値は中間統計量を示す。
これらの擬対称行列の対角行列 ${ \cal D}$ は定数計量 $\zeta$ as $ \mathcal{D}^t \zeta \mathcal{D}= \zeta$ で擬直交群に属することを示す。
これらの擬対称行列はパリティ時(PT)対称量子系を正確に(非破壊的)または破れたPT対称性で表すのに役立つ。
Here, using two real non-zero parameters $\lambda$ and $\mu$, we construct pseudo-Gaussian orthogonal ensembles of a large number $N$ of $n \times n$ ($n$ even and large) real pseudo-symmetric matrices under the metric $\eta$ using $ \mathcal {N}=n(n+1)/2$ independent and identically distributed random numbers as their elements and investigate the statistical properties of the eigenvalues. When $\lambda \mu >0$, we show that the pseudo-symmetric matrix is similar to a real symmetric matrix, consequently all the eigenvalues are real and so the spectral distributions satisfy Wigner's statistics. But when $\lambda \mu <0$ the eigenvalues are either real or complex conjugate pairs. We find that these real eigenvalues display intermediate statistics. We show that the diagonalizing matrices ${ \cal D}$ of these pseudo-symmetric matrices are pseudo-orthogonal under a constant metric $\zeta$ as $ \mathcal{D}^t \zeta \mathcal{D}= \zeta$, and hence they belong to pseudo-orthogonal group. These pseudo-symmetric matrices serve to represent the parity-time (PT)-symmetric quantum systems having exact (un-broken) or broken PT-symmetry. | 翻訳日:2024-07-23 02:37:22 公開日:2024-07-06 |
# ファジィリカレント確率構造ネットワークによる産業データ分析
Fuzzy Recurrent Stochastic Configuration Networks for Industrial Data Analytics ( http://arxiv.org/abs/2407.11038v1 ) ライセンス: Link先を確認 | Dianhui Wang, Gang Dang, | (参考訳) 本稿では,ファジィリカレント確率構成ネットワーク(F-RSCN)と呼ばれる新しいニューロファジィモデルを提案する。
元の再帰確率的構成ネットワーク(RSCN)とは異なり、提案するF-RSCNは複数の貯留層によって構成され、各貯留層は高木スゲノカン(TSK)ファジィ規則に関連付けられている。
このハイブリッドフレームワークを通じて、まず、ファジィ推論を組み込んで、事前の知識をネットワークに埋め込むことにより、モデルの解釈可能性を高める。
次に、繰り返し確率的構成(RSC)アルゴリズムにより、ニューロファジィモデルのパラメータを決定する。
このスキームは、構築されたモデルの普遍近似特性と高速学習速度を保証するだけでなく、未知の動的順序、任意の構造決定、非線形力学のモデル化における学習パラメータの感度といった不確実な問題を克服する。
最後に、プロジェクションアルゴリズムを用いて出力重みのオンライン更新を行い、学習パラメータの収束解析を行う。
TSKファジィ推論システムをRCCNに統合することにより、F-RSCNは強力なファジィ推論能力を有し、学習と一般化の両面での音響性能を実現することができる。
総合的な実験により、提案されたF-RSCNは、他の古典的な神経ファジィモデルや非ファジィモデルよりも優れており、複雑な産業システムをモデル化する大きな可能性を示している。
This paper presents a novel neuro-fuzzy model, termed fuzzy recurrent stochastic configuration networks (F-RSCNs), for industrial data analytics. Unlike the original recurrent stochastic configuration network (RSCN), the proposed F-RSCN is constructed by multiple sub-reservoirs, and each sub-reservoir is associated with a Takagi-Sugeno-Kang (TSK) fuzzy rule. Through this hybrid framework, first, the interpretability of the model is enhanced by incorporating fuzzy reasoning to embed the prior knowledge into the network. Then, the parameters of the neuro-fuzzy model are determined by the recurrent stochastic configuration (RSC) algorithm. This scheme not only ensures the universal approximation property and fast learning speed of the built model but also overcomes uncertain problems, such as unknown dynamic orders, arbitrary structure determination, and the sensitivity of learning parameters in modelling nonlinear dynamics. Finally, an online update of the output weights is performed using the projection algorithm, and the convergence analysis of the learning parameters is given. By integrating TSK fuzzy inference systems into RSCNs, F-RSCNs have strong fuzzy inference capability and can achieve sound performance for both learning and generalization. Comprehensive experiments show that the proposed F-RSCNs outperform other classical neuro-fuzzy and non-fuzzy models, demonstrating great potential for modelling complex industrial systems. | 翻訳日:2024-07-22 12:20:02 公開日:2024-07-06 |
# 操作型GANを用いた高品質全帯域地震信号合成
High-Quality and Full Bandwidth Seismic Signal Synthesis using Operational GANs ( http://arxiv.org/abs/2407.11040v1 ) ライセンス: Link先を確認 | Ozer Can Devecioglu, Serkan Kiranyaz, Zafer Yilmaz, Onur Avci, Moncef Gabbouj, Ertugrul Taciroglu, | (参考訳) 振動センサは、地震の正確な評価のために地震活動を取得するのに不可欠である。
最先端のセンサーは、最高の信号品質と最高帯域幅を提供することができるが、その高価さは、通常幅広い適用性と適用範囲を妨げる。
しかし、その粗悪な品質と低帯域幅は信号の忠実度を著しく低下させ、不正確な分析をもたらす。
これらの欠点に対処するため,本研究では,下級センサから取得した信号を変換することにより,新しい,高品質でフル帯域の地震信号合成を提案する。
我々は,新しい損失関数を持つOp-GAN (Operational Generative Adversarial Networks) を用いた。
そのため、この研究の重要な貢献は、新しいデータセットの公開、地震モニタリングの運用上の制約への対処、そして最初の仮想地震センサを作成するためのディープラーニング変換技術の開拓である。
提案手法はSimulated Ground Motion (SimGM) ベンチマークデータセットを用いて広範囲に評価され, 提案手法は, 安価な地震センサ, CSN-Phidgets, Android, iOS携帯の加速度計など, 各種センサから取得した地震信号の品質と帯域幅を, 最先端センサ(例えば, Kinemetrics-Episensor)と同じレベルに向上することを示した。
SimGMデータセット、我々の結果、提案手法の最適化されたPyTorch実装を公開共有する。
Vibration sensors are essential in acquiring seismic activity for an accurate earthquake assessment. The state-of-the-art sensors can provide the best signal quality and the highest bandwidth; however, their high cost usually hinders a wide range of applicability and coverage, which is otherwise possible with their basic and cheap counterparts. But, their poor quality and low bandwidth can significantly degrade the signal fidelity and result in an imprecise analysis. To address these drawbacks, in this study, we propose a novel, high-quality, and full bandwidth seismic signal synthesis by transforming the signal acquired from an inferior sensor. We employ 1D Operational Generative Adversarial Networks (Op-GANs) with novel loss functions to achieve this. Therefore, the study's key contributions include releasing a new dataset, addressing operational constraints in seismic monitoring, and pioneering a deep-learning transformation technique to create the first virtual seismic sensor. The proposed method is extensively evaluated over the Simulated Ground Motion (SimGM) benchmark dataset, and the results demonstrated that the proposed approach significantly improves the quality and bandwidth of seismic signals acquired from a variety of sensors, including a cheap seismic sensor, the CSN-Phidgets, and the integrated accelerometers of an Android, and iOS phone, to the same level as the state-of-the-art sensor (e.g., Kinemetrics-Episensor). The SimGM dataset, our results, and the optimized PyTorch implementation of the proposed approach are publicly shared. | 翻訳日:2024-07-22 12:09:54 公開日:2024-07-06 |
# AIoTにおけるFPGAを用いた時系列予測のための整数のみ量子変換器
Integer-only Quantized Transformers for Embedded FPGA-based Time-series Forecasting in AIoT ( http://arxiv.org/abs/2407.11041v1 ) ライセンス: Link先を確認 | Tianheng Ling, Chao Qian, Gregor Schiele, | (参考訳) 本稿では,AIoTシステムにおけるデバイス上の時系列予測に最適化されたTransformers用ハードウェアアクセラレータの設計について述べる。
整数のみの量子化と量子化アウェアトレーニングを最適化されたハードウェア設計と統合し、6ビットおよび4ビットの量子化トランスフォーマーモデルを実現し、関連する研究から8ビットの量子化モデルに匹敵する精度を達成した。
組み込みFPGA(Xilinx Spartan-7 XC7S15)の完全な実装を利用して,組込みIoTデバイスにTransformerモデルをデプロイする可能性を検討する。
これには、達成可能な精度、リソース利用、タイミング、電力、デバイス上の推論のためのエネルギー消費の徹底的な分析が含まれる。
以上の結果から,十分な性能を達成できたとしても,最適化プロセスは簡単ではないことが示唆された。
例えば、量子化ビット幅の削減は、様々な最適化の組み合わせを体系的に探索する必要性を強調し、レイテンシやエネルギー消費を一貫して減少させるわけではない。
関連する研究で8ビット量子トランスモデルと比較すると、我々の4ビット量子トランスモデルはテスト損失をわずか0.63%増加させ、最大132.33倍速く動作し、48.19倍のエネルギーを消費する。
This paper presents the design of a hardware accelerator for Transformers, optimized for on-device time-series forecasting in AIoT systems. It integrates integer-only quantization and Quantization-Aware Training with optimized hardware designs to realize 6-bit and 4-bit quantized Transformer models, which achieved precision comparable to 8-bit quantized models from related research. Utilizing a complete implementation on an embedded FPGA (Xilinx Spartan-7 XC7S15), we examine the feasibility of deploying Transformer models on embedded IoT devices. This includes a thorough analysis of achievable precision, resource utilization, timing, power, and energy consumption for on-device inference. Our results indicate that while sufficient performance can be attained, the optimization process is not trivial. For instance, reducing the quantization bitwidth does not consistently result in decreased latency or energy consumption, underscoring the necessity of systematically exploring various optimization combinations. Compared to an 8-bit quantized Transformer model in related studies, our 4-bit quantized Transformer model increases test loss by only 0.63%, operates up to 132.33x faster, and consumes 48.19x less energy. | 翻訳日:2024-07-22 12:09:54 公開日:2024-07-06 |
# 弾性ノードハードウェアを用いたイベント検出のための時系列データの収集とラベル付けのための自動手法
An Automated Approach to Collecting and Labeling Time Series Data for Event Detection Using Elastic Node Hardware ( http://arxiv.org/abs/2407.11042v1 ) ライセンス: Link先を確認 | Tianheng Ling, Islam Mansour, Chao Qian, Gregor Schiele, | (参考訳) IoT技術の最近の進歩は、環境コンテキストを効果的に理解するためにセンサーデータを使用することの重要性を強調している。
本稿では,センサデータをIoTデバイスに直接ラベル付けする新しい組込みシステムを提案する。
本稿では,各種センサデータのキャプチャとラベル付けを効率化する,特殊なラベル付けセンサを備えたハードウェアとソフトウェアの統合ソリューションを提案する。
軽量なラベリング方式でローカル処理を実装することにより,データ転送の広範囲化を最小化し,外部リソースへの依存を低減できる。
収集したデータと畳み込みニューラルネットワークモデルによる実験的検証は、4倍のクロスバリデーションによって確認され、最大91.67%の高い分類精度を達成した。
これらの結果は、正しいラベルで音声や振動データを収集するシステムの堅牢性を示している。
Recent advancements in IoT technologies have underscored the importance of using sensor data to understand environmental contexts effectively. This paper introduces a novel embedded system designed to autonomously label sensor data directly on IoT devices, thereby enhancing the efficiency of data collection methods. We present an integrated hardware and software solution equipped with specialized labeling sensors that streamline the capture and labeling of diverse types of sensor data. By implementing local processing with lightweight labeling methods, our system minimizes the need for extensive data transmission and reduces dependence on external resources. Experimental validation with collected data and a Convolutional Neural Network model achieved a high classification accuracy of up to 91.67%, as confirmed through 4-fold cross-validation. These results demonstrate the system's robust capability to collect audio and vibration data with correct labels. | 翻訳日:2024-07-22 12:09:54 公開日:2024-07-06 |
# Dy-mer:スパースリカバリを用いた説明可能なDNA配列表現方式
Dy-mer: An Explainable DNA Sequence Representation Scheme using Sparse Recovery ( http://arxiv.org/abs/2407.12051v1 ) ライセンス: Link先を確認 | Zhiyuan Peng, Yuanbo Tang, Yang Li, | (参考訳) DNA配列は重要な遺伝情報や生物学的情報をコードするが、これらの未固定長配列は一般的なデータマイニングアルゴリズムの入力として機能しない。
そのため、DNA配列を固定長の数値表現に変換するための様々な表現スキームが開発されている。
しかし、これらのスキームは、DNAデータの複雑さと空間性のために、高品質な表現を学ぶのに困難に直面している。
さらに、DNA配列は突然変異のため本質的にうるさい。
有効性のためにいくつかのスキームが提案されているが、しばしば意味的構造が欠如しており、生物学者が結果の検証と活用を困難にしている。
これらの課題に対処するために、スパースリカバリに基づく説明可能で堅牢なDNA表現スキームである \textbf{Dy-mer} を提案する。
基礎となるDNAのセマンティック構造を活用することで, 生物機能を示す繰り返しパターンを, K-merを基本ベクターとして表現し, 簡単な結合によって各DNA配列を再構築することで, 従来のスパース修復を改良する。
実験の結果, <textbf{Dy-mer} はDNAプロモーターの分類における最先端性能を達成し, 精度が著しく向上した。
さらに、その固有の説明可能性によってDNAのクラスタリングとモチーフの検出が促進され、生物学的研究におけるその有用性が向上する。
DNA sequences encode vital genetic and biological information, yet these unfixed-length sequences cannot serve as the input of common data mining algorithms. Hence, various representation schemes have been developed to transform DNA sequences into fixed-length numerical representations. However, these schemes face difficulties in learning high-quality representations due to the complexity and sparsity of DNA data. Additionally, DNA sequences are inherently noisy because of mutations. While several schemes have been proposed for their effectiveness, they often lack semantic structure, making it difficult for biologists to validate and leverage the results. To address these challenges, we propose \textbf{Dy-mer}, an explainable and robust DNA representation scheme based on sparse recovery. Leveraging the underlying semantic structure of DNA, we modify the traditional sparse recovery to capture recurring patterns indicative of biological functions by representing frequent K-mers as basis vectors and reconstructing each DNA sequence through simple concatenation. Experimental results demonstrate that \textbf{Dy-mer} achieves state-of-the-art performance in DNA promoter classification, yielding a remarkable \textbf{13\%} increase in accuracy. Moreover, its inherent explainability facilitates DNA clustering and motif detection, enhancing its utility in biological research. | 翻訳日:2024-07-22 11:20:27 公開日:2024-07-06 |
# 判例判断要約のための大規模言語モデルと生成モデルの適用性
Applicability of Large Language Models and Generative Models for Legal Case Judgement Summarization ( http://arxiv.org/abs/2407.12848v1 ) ライセンス: Link先を確認 | Aniket Deroy, Kripabandhu Ghosh, Saptarshi Ghosh, | (参考訳) 判例判断の自動要約は、長く複雑であることが知られているが、伝統的に抽出的な要約モデルによって試みられている。
近年,抽象的な要約モデルやLarge Language Model (LLM) などの生成モデルが広く普及している。
本稿では,判例判断要約におけるそのようなモデルの適用性について検討する。
我々は,英国最高裁判所とインド最高裁判所の2つの判例判決に対して,ドメイン固有の抽象的要約モデルと一般ドメインLLMの抽出的要約モデルを適用し,生成した要約の質を評価した。
また、米国政府(US)の報告によると、異なるタイプの法律文書の第3のデータセットの実験も行います。
その結果,抽象的な要約モデルやLLMは,要約品質を評価するための従来の指標に比べて,抽出手法よりも優れていた。
しかし、詳細な調査は、生成モデルの出力に矛盾と幻覚が存在することを示し、要約における幻覚と不一致を減らす方法を模索している。
本研究は, 判例判断要約のための抽象モデルとLLMの信頼性を高めるために, さらなる改善が必要であることを示唆している。
現在,提案手法は,生成した要約の不整合を識別する手動チェックを行うのに適している。
Automatic summarization of legal case judgements, which are known to be long and complex, has traditionally been tried via extractive summarization models. In recent years, generative models including abstractive summarization models and Large language models (LLMs) have gained huge popularity. In this paper, we explore the applicability of such models for legal case judgement summarization. We applied various domain specific abstractive summarization models and general domain LLMs as well as extractive summarization models over two sets of legal case judgements from the United Kingdom (UK) Supreme Court and the Indian (IN) Supreme Court and evaluated the quality of the generated summaries. We also perform experiments on a third dataset of legal documents of a different type, Government reports from the United States (US). Results show that abstractive summarization models and LLMs generally perform better than the extractive methods as per traditional metrics for evaluating summary quality. However, detailed investigation shows the presence of inconsistencies and hallucinations in the outputs of the generative models, and we explore ways to reduce the hallucinations and inconsistencies in the summaries. Overall, the investigation suggests that further improvements are needed to enhance the reliability of abstractive models and LLMs for legal case judgement summarization. At present, a human-in-the-loop technique is more suitable for performing manual checks to identify inconsistencies in the generated summaries. | 翻訳日:2024-07-22 08:28:07 公開日:2024-07-06 |
# 大規模言語モデルは優れた医療用コーダーであり、もしツールが備わっているなら
Large language models are good medical coders, if provided with tools ( http://arxiv.org/abs/2407.12849v1 ) ライセンス: Link先を確認 | Keith Kwan, | (参考訳) 本研究では,CD-10-CM自動医療符号化のための2段階リトリーブ・ランクシステムについて,その性能をVanilla Large Language Model (LLM)アプローチと比較した。
Retrieve-Rankシステムは、100の単一長期医療条件のデータセット上で両方のシステムを評価することで、正しいICD-10-CMコードを予測する精度を100%達成し、わずか6%の精度でVanilla LLM(GPT-3.5-turbo)をはるかに上回った。
分析の結果,Retrieve-Rank システムは様々な専門分野の医療用語を扱う上で,より高精度であることがわかった。
これらの結果は有望なものだが、簡易な入力の使用の限界と、より複雑で現実的な医療症例に対するさらなるテストの必要性を認めている。
本研究は, 医用符号化の効率化と精度向上に寄与し, 検索手法の重要性を浮き彫りにしている。
This study presents a novel two-stage Retrieve-Rank system for automated ICD-10-CM medical coding, comparing its performance against a Vanilla Large Language Model (LLM) approach. Evaluating both systems on a dataset of 100 single-term medical conditions, the Retrieve-Rank system achieved 100% accuracy in predicting correct ICD-10-CM codes, significantly outperforming the Vanilla LLM (GPT-3.5-turbo), which achieved only 6% accuracy. Our analysis demonstrates the Retrieve-Rank system's superior precision in handling various medical terms across different specialties. While these results are promising, we acknowledge the limitations of using simplified inputs and the need for further testing on more complex, realistic medical cases. This research contributes to the ongoing effort to improve the efficiency and accuracy of medical coding, highlighting the importance of retrieval-based approaches. | 翻訳日:2024-07-22 08:28:07 公開日:2024-07-06 |
# ビデオにおける痛覚局所化のための深度改善ドメイン適応法
Deep Weakly-Supervised Domain Adaptation for Pain Localization in Videos ( http://arxiv.org/abs/1910.08173v3 ) ライセンス: Link先を確認 | R. Gnana Praveen, Eric Granger, Patrick Cardinal, | (参考訳) 自動鎮痛評価は、痛み体験を明瞭化できない集団にとって重要な診断価値を持つ。
痛み発現イベントを誘発する非言語チャネルの1つとして、個人の痛み強度を推定するための表情が広く研究されている。
しかし、現実の痛み推定アプリケーションにおける最先端ディープラーニング(DL)モデルの使用は、表情の主観的変化、操作的捕獲条件、ラベル付き代表訓練ビデオの欠如に関連するいくつかの課題を提起する。
ビデオフレーム毎にアノテートレベルを付与するコストを考慮し,弱いラベル付きビデオを用いた時空間の痛み強度推定のための3次元CNNのトレーニングを行うための弱教師付きドメイン適応(WSDA)手法を提案する。
特に、WSDAは、複数のインスタンス学習を敵の深いドメイン適応フレームワークに統合し、インフレーテッド3D-CNN(I3D)モデルをトレーニングし、ターゲットの操作領域における痛み強度を正確に見積もることができる。
トレーニングプロセスは、I3Dモデルのドメイン適応のためのドメイン損失とソース損失と共に、弱いターゲット損失に依存する。
ラベル付きソースドメイン RECOLA ビデオと弱いラベル付きターゲットドメイン UNBC-McMaster ビデオを用いて得られた実験結果から,提案した深部WSDA アプローチは,関連する最先端手法に比べて,シーケンスレベルおよびフレームレベルの痛み局所化精度が有意に高いことが示唆された。
Automatic pain assessment has an important potential diagnostic value for populations that are incapable of articulating their pain experiences. As one of the dominating nonverbal channels for eliciting pain expression events, facial expressions has been widely investigated for estimating the pain intensity of individual. However, using state-of-the-art deep learning (DL) models in real-world pain estimation applications poses several challenges related to the subjective variations of facial expressions, operational capture conditions, and lack of representative training videos with labels. Given the cost of annotating intensity levels for every video frame, we propose a weakly-supervised domain adaptation (WSDA) technique that allows for training 3D CNNs for spatio-temporal pain intensity estimation using weakly labeled videos, where labels are provided on a periodic basis. In particular, WSDA integrates multiple instance learning into an adversarial deep domain adaptation framework to train an Inflated 3D-CNN (I3D) model such that it can accurately estimate pain intensities in the target operational domain. The training process relies on weak target loss, along with domain loss and source loss for domain adaptation of the I3D model. Experimental results obtained using labeled source domain RECOLA videos and weakly-labeled target domain UNBC-McMaster videos indicate that the proposed deep WSDA approach can achieve significantly higher level of sequence (bag)-level and frame (instance)-level pain localization accuracy than related state-of-the-art approaches. | 翻訳日:2024-07-11 00:57:55 公開日:2024-07-06 |
# DDOS:ドローンの深さと障害物セグメンテーションデータセット
DDOS: The Drone Depth and Obstacle Segmentation Dataset ( http://arxiv.org/abs/2312.12494v2 ) ライセンス: Link先を確認 | Benedikt Kolbeinsson, Krystian Mikolajczyk, | (参考訳) リモートセンシングや緊急サービスなどの分野に不可欠な自律ドローンの進歩は、現実世界のシナリオ、特に最適でない気象条件下での運用、ワイヤのような細い構造の検出など、環境上の課題を完全に把握するトレーニングデータセットが欠如していることによって妨げられている。
我々は,この重要なギャップを合成空中画像の集合で埋めるため,Drone Depth and Obstacle Segmentation (DDOS)データセットを提示し,セマンティックセグメンテーションと深さ推定のための総合的なトレーニングサンプルを提供する。
細い構造物の識別を強化するために特別に設計されたDDOSは、ドローンが幅広い気象条件をナビゲートし、ドローンの訓練と運用上の安全性を大幅に向上させる。
さらに、この研究は、深度推定におけるアルゴリズムの評価を洗練するための革新的なドローン固有のメトリクスを導入し、細い構造検出に重点を置いている。
これらの貢献は、自律ドローン技術の大幅な改善の道を開くだけでなく、将来の研究のための新しいベンチマークを設定し、ドローンナビゲーションと安全性のさらなる進歩への道を開く。
The advancement of autonomous drones, essential for sectors such as remote sensing and emergency services, is hindered by the absence of training datasets that fully capture the environmental challenges present in real-world scenarios, particularly operations in non-optimal weather conditions and the detection of thin structures like wires. We present the Drone Depth and Obstacle Segmentation (DDOS) dataset to fill this critical gap with a collection of synthetic aerial images, created to provide comprehensive training samples for semantic segmentation and depth estimation. Specifically designed to enhance the identification of thin structures, DDOS allows drones to navigate a wide range of weather conditions, significantly elevating drone training and operational safety. Additionally, this work introduces innovative drone-specific metrics aimed at refining the evaluation of algorithms in depth estimation, with a focus on thin structure detection. These contributions not only pave the way for substantial improvements in autonomous drone technology but also set a new benchmark for future research, opening avenues for further advancements in drone navigation and safety. | 翻訳日:2024-07-11 00:11:18 公開日:2024-07-06 |
# テレビ番組のマルチモーダル要約のためのモジュール的アプローチ
A Modular Approach for Multimodal Summarization of TV Shows ( http://arxiv.org/abs/2403.03823v6 ) ライセンス: Link先を確認 | Louis Mahon, Mirella Lapata, | (参考訳) 本稿では,複雑な推論,複数モーダル性,長い物語など,AI研究の重要な領域に触発するテレビ番組を要約する作業について述べる。
本稿では,各コンポーネントが個別のサブタスクを実行するモジュール方式を提案する。
我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。
PRISMA(Precision and Recall EvaluatIon of Summary FActs)は、生成した要約の精度とリコールを計測し、原子的な事実に分解する。
最近リリースされたSummScreen3Dデータセットを用いて、ROUGEと新しいファクトベースメトリクスを用いて、比較モデルよりも高品質な要約を生成するとともに、人間の評価者によって評価される。
In this paper we address the task of summarizing television shows, which touches key areas in AI research: complex reasoning, multiple modalities, and long narratives. We present a modular approach where separate components perform specialized sub-tasks which we argue affords greater flexibility compared to end-to-end methods. Our modules involve detecting scene boundaries, reordering scenes so as to minimize the number of cuts between different events, converting visual information to text, summarizing the dialogue in each scene, and fusing the scene summaries into a final summary for the entire episode. We also present a new metric, PRISMA (Precision and Recall EvaluatIon of Summary FActs), to measure both precision and recall of generated summaries, which we decompose into atomic facts. Tested on the recently released SummScreen3D dataset, our method produces higher quality summaries than comparison models, as measured with ROUGE and our new fact-based metric, and as assessed by human evaluators. | 翻訳日:2024-07-10 23:41:10 公開日:2024-07-06 |
# 量子機械学習と進行性核上麻痺ネットワーク分類への応用
Quantum Machine Learning with Application to Progressive Supranuclear Palsy Network Classification ( http://arxiv.org/abs/2407.06226v1 ) ライセンス: Link先を確認 | Papri Saha, | (参考訳) 機械学習と量子コンピューティングは、解決不可能な問題に対処する可能性のある計算アプローチに光を当てるために、徐々に研究されている。
機械学習の古典的手法は、パターン認識においてユビキタスであり、サポートベクターマシン(SVM)はネットワーク分類の顕著な技術である。
しかし、入力特徴空間が大きくなり、いわゆるカーネル関数の連続的な評価が計算的に外乱となると、そのような分類インスタンスの解決に限界がある。
主成分分析(PCA)の使用は、特徴空間の次元を実質的に最小化し、教師付き学習の計算スピードアップを可能にする。
さらに、PCAの削減された入力特徴空間への量子ベースの学習の適用は、より少ないパラメータで指数的なスピードアップをもたらす可能性がある。
本モデルは, 進行性核上麻痺 (PSP) の診断である。
その結果、量子機械学習は古典的なフレームワークよりも顕著に進歩し、性能を上回っていることが示唆された。
最適化された変分量子分類器は、従来のSVMと比較して86%の精度でPSPデータセットを分類する。
別の手法である量子カーネル推定器は、量子マシン上のカーネル関数を近似し、古典的なSVMを最適化する。
特に,IBM量子プラットフォームの量子シミュレータと実チップの両面において,本モデルの有効性を実証した。
Machine learning and quantum computing are being progressively explored to shed light on possible computational approaches to deal with hitherto unsolvable problems. Classical methods for machine learning are ubiquitous in pattern recognition, with support vector machines (SVMs) being a prominent technique for network classification. However, there are limitations to the successful resolution of such classification instances when the input feature space becomes large, and the successive evaluation of so-called kernel functions becomes computationally exorbitant. The use of principal component analysis (PCA) substantially minimizes the dimensionality of feature space thereby enabling computational speed-ups of supervised learning: the creation of a classifier. Further, the application of quantum-based learning to the PCA reduced input feature space might offer an exponential speedup with fewer parameters. The present learning model is evaluated on a real clinical application: the diagnosis of Progressive Supranuclear Palsy (PSP) disorder. The results suggest that quantum machine learning has led to noticeable advancement and outperforms classical frameworks. The optimized variational quantum classifier classifies the PSP dataset with 86% accuracy as compared to conventional SVM. The other technique, a quantum kernel estimator, approximates the kernel function on the quantum machine and optimizes a classical SVM. In particular, we have demonstrated the successful application of the present model on both a quantum simulator and real chips of the IBM quantum platform. | 翻訳日:2024-07-10 22:22:56 公開日:2024-07-06 |
# 6Gにおける通信と制御の協調設計--LCMを用いた逐次決定-
Communication and Control Co-Design in 6G: Sequential Decision-Making with LLMs ( http://arxiv.org/abs/2407.06227v1 ) ライセンス: Link先を確認 | Xianfu Chen, Celimuge Wu, Yi Shen, Yusheng Ji, Tsutomu Yoshinaga, Qiang Ni, Charilaos C. Zarakovitis, Honggang Zhang, | (参考訳) 本稿では,6世代無線ネットワークにおける制御システムについて考察する。
制御性能の最適化は、コミュニケーションと制御サブシステムの間の複雑な相互作用から生じる技術的課題に直面し、共同設計を求める。
システムダイナミクスを考慮し、マルコフ決定プロセスとしてコミュニケーションと離散時間地平線制御の逐次的共同設計決定を定式化し、実用的なオフライン学習フレームワークを提案する。
提案するフレームワークは,大規模言語モデルを強化学習の要素に統合する。
本稿では,セマンティックス・アウェア・コミュニケーションとコントロール・コデザインの年代を事例として,提案する学習フレームワークの可能性を実証する。
さらに,提案するオフライン学習フレームワークを実世界の実装で実現可能にするためのオープンな課題について論じ,今後の研究の方向性を明らかにする。
This article investigates a control system within the context of six-generation wireless networks. The control performance optimization confronts the technical challenges that arise from the intricate interactions between communication and control sub-systems, asking for a co-design. Accounting for the system dynamics, we formulate the sequential co-design decision-makings of communication and control over the discrete time horizon as a Markov decision process, for which a practical offline learning framework is proposed. Our proposed framework integrates large language models into the elements of reinforcement learning. We present a case study on the age of semantics-aware communication and control co-design to showcase the potentials from our proposed learning framework. Furthermore, we discuss the open issues remaining to make our proposed offline learning framework feasible for real-world implementations, and highlight the research directions for future explorations. | 翻訳日:2024-07-10 22:22:56 公開日:2024-07-06 |
# 弱ラベル映像を用いた痛み強度推定の経時的回帰に対する深部ドメイン適応
Deep Domain Adaptation for Ordinal Regression of Pain Intensity Estimation Using Weakly-Labelled Videos ( http://arxiv.org/abs/2008.06392v3 ) ライセンス: Link先を確認 | R. Gnana Praveen, Eric Granger, Patrick Cardinal, | (参考訳) ビデオで捉えた表情から痛みの強さを推定することは、医療応用にとって大きな可能性を秘めている。
表情の主観的変化や操作的捕獲条件にかかわる課題を考えると、表情を認識するための最先端のDLモデルの精度は低下する可能性がある。
ドメイン適応は、典型的に様々なソースとターゲットドメインをまたいだビデオデータ間で発生するドメインシフトの問題を軽減するために広く研究されてきた。
さらに,映像の収集・注釈作業や,隣り合う強度レベルのあいまいさによる主観的偏見から,弱い教師付き学習が注目されている。
最先端のWSLモデルは典型的には回帰問題として定式化され、痛み強度レベルと時間的コヒーレンスの間の順序関係は利用されない。
本稿では, 順序回帰を伴う弱教師付きDAのための新しいDLモデルを提案する。
WSDA-ORモデルは、ターゲットシーケンスに割り当てられた強度レベル間の順序関係を強制し、複数の関連するフレームをシーケンスレベルラベルに関連付ける。
特に、複数のインスタンス学習と深い敵対的DAを統合することで、識別およびドメイン不変の特徴表現を学習し、ソフトなガウスラベルを使用して、ターゲットドメインからの弱い順序レベルラベルを効率的に表現する。
提案手法は、RECOLAビデオデータセットを完全ラベル付きソースドメインデータとして、UNBC-McMaster肩痛ビデオデータセットを弱いラベル付きターゲットドメインデータとして、検証した。
また,BIOVIDおよび疲労データセット上でのWSDA-ORの有効性を検証し,シーケンスレベルの推定を行った。
Estimation of pain intensity from facial expressions captured in videos has an immense potential for health care applications. Given the challenges related to subjective variations of facial expressions, and operational capture conditions, the accuracy of state-of-the-art DL models for recognizing facial expressions may decline. Domain adaptation has been widely explored to alleviate the problem of domain shifts that typically occur between video data captured across various source and target domains. Moreover, given the laborious task of collecting and annotating videos, and subjective bias due to ambiguity among adjacent intensity levels, weakly-supervised learning is gaining attention in such applications. State-of-the-art WSL models are typically formulated as regression problems, and do not leverage the ordinal relationship among pain intensity levels, nor temporal coherence of multiple consecutive frames. This paper introduces a new DL model for weakly-supervised DA with ordinal regression that can be adapted using target domain videos with coarse labels provided on a periodic basis. The WSDA-OR model enforces ordinal relationships among intensity levels assigned to target sequences, and associates multiple relevant frames to sequence-level labels. In particular, it learns discriminant and domain-invariant feature representations by integrating multiple instance learning with deep adversarial DA, where soft Gaussian labels are used to efficiently represent the weak ordinal sequence-level labels from target domain. The proposed approach was validated using RECOLA video dataset as fully-labeled source domain data, and UNBC-McMaster shoulder pain video dataset as weakly-labeled target domain data. We have also validated WSDA-OR on BIOVID and Fatigue datasets for sequence level estimation. | 翻訳日:2024-07-10 06:10:05 公開日:2024-07-06 |
# 混合密度ネットワークを用いたベイズ地音響インバージョン
Bayesian geoacoustic inversion using mixture density network ( http://arxiv.org/abs/2008.07902v4 ) ライセンス: Link先を確認 | Guoli Wu, Jingya Zhang, Junqiang Song, | (参考訳) ベイズ的地音響反転問題はマルコフ連鎖モンテカルロ法またはその変種によって解かれるが、これは計算に高価である。
本稿では, 混合密度ネットワーク(MDN)理論を用いて, 多次元後続確率密度(PPD)からベイズ測地音響インバージョンの重要な測地統計を導出することにより, 古典的ベイズ測地音響インバージョンフレームワークを拡張した。
これらの統計は、パラメータ空間全体に直接ネットワークをトレーニングし、モデルのパラメータの多次元PDを得るのに便利である。
このアプローチはベイズ推論フレームワークにおける測地反転問題を解くためのより効率的な方法を提供する。
ネットワークは、せん断波速度をラベルとする表面波分散曲線のシミュレーションデータセットに基づいてトレーニングされ、合成データと実データの両方でテストされる。
その結果,ネットワークは信頼性の高い予測を行い,未知のデータに対して高い一般化性能を示すことがわかった。
一度訓練すると、ネットワークはモンテカルロ法に匹敵する完全に確率的な解を素早く(数秒で)得ることができる。
リアルタイムの逆転には有望なアプローチを提供する。
Bayesian geoacoustic inversion problems are conventionally solved by Markov chain Monte Carlo methods or its variants, which are computationally expensive. This paper extends the classic Bayesian geoacoustic inversion framework by deriving important geoacoustic statistics of Bayesian geoacoustic inversion from the multidimensional posterior probability density (PPD) using the mixture density network (MDN) theory. These statistics make it convenient to train the network directly on the whole parameter space and get the multidimensional PPD of model parameters. The present approach provides a much more efficient way to solve geoacoustic inversion problems in Bayesian inference framework. The network is trained on a simulated dataset of surface-wave dispersion curves with shear-wave velocities as labels and tested on both synthetic and real data cases. The results show that the network gives reliable predictions and has good generalization performance on unseen data. Once trained, the network can rapidly (within seconds) give a fully probabilistic solution which is comparable to Monte Carlo methods. It provides an promising approach for real-time inversion. | 翻訳日:2024-07-10 06:10:05 公開日:2024-07-06 |
# 小データを用いたバイオマニュファクチャリングハーベスト最適化
Biomanufacturing Harvest Optimization with Small Data ( http://arxiv.org/abs/2101.03735v5 ) ライセンス: Link先を確認 | Bo Wang, Wei Xie, Tugce Martagan, Alp Akcay, Bram van Ravenstein, | (参考訳) バイオ医薬品製造において、発酵プロセスは生産性と利益において重要な役割を担っている。
発酵過程は、複雑な生物学的機構を持つ生きた細胞を使用し、プロセスの出力、すなわちタンパク質と不純物レベルに高い変動をもたらす。
タンパク質と不純物成長の生物学的機構を基盤として, 発酵過程におけるタンパク質の蓄積と不純物濃度を特徴付ける確率モデルを導入する。
しかし、業界における一般的な課題は、特に開発と生産の初期段階において、非常に限られた量のデータしか利用できないことである。
これは、限られたデータでモデルパラメータを推定することが困難であるため、モデルリスクと呼ばれる新たな不確実性層を追加する。
本稿では, モデルリスク下での発酵プロセス(すなわち, 発酵を止めて生産報酬を回収するタイミング)の収穫決定について検討する。
我々は,成長速度分布の未知のパラメータを更新するためにベイズ的アプローチを採用し,得られた後続分布を用いて,モデルリスクが発酵生産変動に及ぼす影響を特徴づける。
収穫問題は、後続分布を要約し、意思決定におけるモデルリスクを組み込む知識状態を持つマルコフ決定プロセスモデルとして定式化される。
本研究は,MSD Animal Healthのケーススタディにおいて,発酵バッチから平均出力を著しく高め,バッチ・ツー・バッチの変動を低減し,実生活における収穫決定を改善するモデルとソリューション・アプローチを実証するものである。
In biopharmaceutical manufacturing, fermentation processes play a critical role in productivity and profit. A fermentation process uses living cells with complex biological mechanisms, leading to high variability in the process outputs, namely, the protein and impurity levels. By building on the biological mechanisms of protein and impurity growth, we introduce a stochastic model to characterize the accumulation of the protein and impurity levels in the fermentation process. However, a common challenge in the industry is the availability of only a very limited amount of data, especially in the development and early stages of production. This adds an additional layer of uncertainty, referred to as model risk, due to the difficulty of estimating the model parameters with limited data. In this paper, we study the harvesting decision for a fermentation process (i.e., when to stop the fermentation and collect the production reward) under model risk. We adopt a Bayesian approach to update the unknown parameters of the growth-rate distributions, and use the resulting posterior distributions to characterize the impact of model risk on fermentation output variability. The harvesting problem is formulated as a Markov decision process model with knowledge states that summarize the posterior distributions and hence incorporate the model risk in decision-making. Our case studies at MSD Animal Health demonstrate that the proposed model and solution approach improve the harvesting decisions in real life by achieving substantially higher average output from a fermentation batch along with lower batch-to-batch variability. | 翻訳日:2024-07-10 06:10:05 公開日:2024-07-06 |
# 顔行動分析のための弱教師付き学習 : 概観
Weakly Supervised Learning for Facial Behavior Analysis : A Review ( http://arxiv.org/abs/2101.09858v3 ) ライセンス: Link先を確認 | R. Gnana Praveen, Eric Granger, Patrick Cardinal, | (参考訳) 近年,実験室が管理する条件から,多くの実世界の応用において,ディープラーニングに基づくアプローチが優れた性能を発揮できるため,現状の課題へと,顔の行動分析が変化してきたが,ディープラーニングアプローチのパフォーマンスはトレーニングデータの量に依存している。
データ取得の大きな問題の1つは、大量のトレーニングデータに対するアノテーションの要求である。
大規模なトレーニングデータのラベル付けには、表情やアクションユニットの強力なドメイン専門知識が要求されるため、リアルタイム環境では入手が困難であり、特にドメイン専門家のバイアスによる強度に対する表現やアクションユニットのあいまいさに対して、ラベル付けプロセスは極めて脆弱である。
したがって、弱いアノテーションによる顔行動分析の課題に対処する必要がある。
本稿では,分類的および次元的ラベルを用いた顔行動分析のための弱教師付き学習(WSL)アプローチの総合的なレビューと,それに関連する課題と研究の方向性について述べる。
まず、顔の行動分析とそれに関連する課題の文脈において、様々な弱いアノテーションを導入する。
そして、既存の最先端のアプローチを体系的にレビューし、これらのアプローチの分類と洞察と限界を提供します。
また、レビュー文献で広く使われているデータセットと評価原則とともにこれらの手法の性能について概説する。
最後に、現実の状況において弱いラベルで顔の行動分析を適用するために、今後の研究の方向性とともに、残る課題と機会について論じる。
In the recent years, there has been a shift in facial behavior analysis from the laboratory-controlled conditions to the challenging in-the-wild conditions due to the superior performance of deep learning based approaches for many real world applications.However, the performance of deep learning approaches relies on the amount of training data. One of the major problems with data acquisition is the requirement of annotations for large amount of training data. Labeling process of huge training data demands lot of human support with strong domain expertise for facial expressions or action units, which is difficult to obtain in real-time environments.Moreover, labeling process is highly vulnerable to ambiguity of expressions or action units, especially for intensities due to the bias induced by the domain experts. Therefore, there is an imperative need to address the problem of facial behavior analysis with weak annotations. In this paper, we provide a comprehensive review of weakly supervised learning (WSL) approaches for facial behavior analysis with both categorical as well as dimensional labels along with the challenges and potential research directions associated with it. First, we introduce various types of weak annotations in the context of facial behavior analysis and the corresponding challenges associated with it. We then systematically review the existing state-of-the-art approaches and provide a taxonomy of these approaches along with their insights and limitations. In addition, widely used data-sets in the reviewed literature and the performance of these approaches along with evaluation principles are summarized. Finally, we discuss the remaining challenges and opportunities along with the potential research directions in order to apply facial behavior analysis with weak labels in real life situations. | 翻訳日:2024-07-10 06:10:05 公開日:2024-07-06 |
# 接地関係推論:ドメイン知識駆動型説明可能な自律運転
Grounded Relational Inference: Domain Knowledge Driven Explainable Autonomous Driving ( http://arxiv.org/abs/2102.11905v3 ) ライセンス: Link先を確認 | Chen Tang, Nishan Srishankar, Sujitha Martin, Masayoshi Tomizuka, | (参考訳) 説明可能性(Explainability)は、運転中に人間や他の物体と対話する自動運転車や他のロボットシステムにとって不可欠である。
人間は、信頼と安全な協力のために、機械によって取られた行動を理解し、予測する必要がある。
本研究では、人間のドメイン知識とモデル固有の因果関係の両方に整合する説明可能なモデルを開発することを目的とする。
特に、自律運転における重要なビルディングブロック、マルチエージェントインタラクションモデリングに焦点を当てる。
提案するグラウンドド・リレーショナル・推論(GRI)について述べる。
エージェントの関係を表す相互作用グラフを推論することで、対話システムの基盤となるダイナミクスをモデル化する。
我々は、関係潜在空間を専門ドメイン知識で定義された意味的対話行動に基礎付けることにより、意味論的に意味のある相互作用グラフを確保する。
シミュレーションと実世界の両方の環境下での対話的な交通シナリオをモデル化し,その相互作用によって車両の挙動を説明するセマンティックグラフを生成することを実証した。
Explainability is essential for autonomous vehicles and other robotics systems interacting with humans and other objects during operation. Humans need to understand and anticipate the actions taken by the machines for trustful and safe cooperation. In this work, we aim to develop an explainable model that generates explanations consistent with both human domain knowledge and the model's inherent causal relation. In particular, we focus on an essential building block of autonomous driving, multi-agent interaction modeling. We propose Grounded Relational Inference (GRI). It models an interactive system's underlying dynamics by inferring an interaction graph representing the agents' relations. We ensure a semantically meaningful interaction graph by grounding the relational latent space into semantic interactive behaviors defined with expert domain knowledge. We demonstrate that it can model interactive traffic scenarios under both simulation and real-world settings, and generate semantic graphs explaining the vehicle's behavior by their interactions. | 翻訳日:2024-07-10 06:10:05 公開日:2024-07-06 |
# 三次元感情認識のためのクロスアテンショナルオーディオ・ビジュアルフュージョン
Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition ( http://arxiv.org/abs/2111.05222v2 ) ライセンス: Link先を確認 | R. Gnana Praveen, Eric Granger, Patrick Cardinal, | (参考訳) マルチモーダル分析は、孤立したユニモーダルアプローチよりも感情認識の全体的な精度を向上させることができるため、近年、感情コンピューティングに大きな関心を寄せている。
マルチモーダル感情認識の最も効果的な技術は、顔、声、生理的モダリティといった多種多様な情報ソースを効果的に活用し、包括的特徴表現を提供する。
本稿では,複雑な時空間関係を捉えた映像から抽出した顔と声のモダリティの融合に基づく次元的感情認識に焦点を当てた。
既存の融合技術の多くは、オーディオ・ヴィジュアル(A-V)モダリティの補完的な性質を効果的に活用しないリカレント・ネットワークや従来の注意機構に依存している。
本研究では,A-Vモダリティ間の有意な特徴を抽出し,有価値と覚醒値の連続的な値の正確な予測を可能にする。
我々の新しいA-V融合モデルは、モーダル間の関係を効率的に活用する。
特に、クロスアテンション重みを計算し、個々のモダリティにまたがるよりコントリビューティブな特徴に焦点を合わせ、コントリビューティブな特徴表現を組み合わせる。
提案手法の有効性をRECOLAと疲労(私的)データセットの動画で実験的に検証した。
その結果、我々のA-V融合モデルは、最先端の核融合モデルよりも優れたコスト効率のアプローチであることが示唆された。
コードは: \url{https://github.com/praveena2j/Cross-Attentional-AV-Fusion}
Multimodal analysis has recently drawn much interest in affective computing, since it can improve the overall accuracy of emotion recognition over isolated uni-modal approaches. The most effective techniques for multimodal emotion recognition efficiently leverage diverse and complimentary sources of information, such as facial, vocal, and physiological modalities, to provide comprehensive feature representations. In this paper, we focus on dimensional emotion recognition based on the fusion of facial and vocal modalities extracted from videos, where complex spatiotemporal relationships may be captured. Most of the existing fusion techniques rely on recurrent networks or conventional attention mechanisms that do not effectively leverage the complimentary nature of audio-visual (A-V) modalities. We introduce a cross-attentional fusion approach to extract the salient features across A-V modalities, allowing for accurate prediction of continuous values of valence and arousal. Our new cross-attentional A-V fusion model efficiently leverages the inter-modal relationships. In particular, it computes cross-attention weights to focus on the more contributive features across individual modalities, and thereby combine contributive feature representations, which are then fed to fully connected layers for the prediction of valence and arousal. The effectiveness of the proposed approach is validated experimentally on videos from the RECOLA and Fatigue (private) data-sets. Results indicate that our cross-attentional A-V fusion model is a cost-effective approach that outperforms state-of-the-art fusion approaches. Code is available: \url{https://github.com/praveena2j/Cross-Attentional-AV-Fusion} | 翻訳日:2024-07-10 06:02:09 公開日:2024-07-06 |
# 雑音量子コンピュータの性能向上
Efficiently improving the performance of noisy quantum computers ( http://arxiv.org/abs/2201.10672v5 ) ライセンス: Link先を確認 | Samuele Ferracin, Akel Hashim, Jean-Loup Ville, Ravi Naik, Arnaud Carignan-Dugas, Hammam Qassim, Alexis Morvan, David I. Santiago, Irfan Siddiqi, Joel J. Wallman, | (参考訳) 量子優位性を達成するために短期量子コンピュータを使用するには、現在利用可能なノイズの多い量子デバイスの性能を改善するための効率的な戦略が必要である。
我々は、ゲートのノイズサイクルからなる量子回路の性能を大幅に向上させる「ノイズレス出力補間」と「パウリエラーキャンセラ」という2つの効率的なエラー軽減プロトコルを開発し、実験的に検証する。
確率的誤差キャンセルや雑音増幅などの一般的な緩和手法と効率的なノイズ再構成手法を組み合わせることで,非局所的およびゲート依存プロセスを含む既存の緩和プロトコルの前提を満たさない幅広いノイズ処理を緩和することができる。
我々は、Advanced Quantum Testbedの4ビット超伝導プロセッサ上で、我々のプロトコルをテストする。
構成回路とランダム回路の両方の性能が大幅に改善され、未緩和出力よりも最大8,6\%の変動距離が向上する。
本実験は,現行ハードウェアプラットフォームにおけるプロトコルの有効性と実用性を実証するものである。
Using near-term quantum computers to achieve a quantum advantage requires efficient strategies to improve the performance of the noisy quantum devices presently available. We develop and experimentally validate two efficient error mitigation protocols named "Noiseless Output Extrapolation" and "Pauli Error Cancellation" that can drastically enhance the performance of quantum circuits composed of noisy cycles of gates. By combining popular mitigation strategies such as probabilistic error cancellation and noise amplification with efficient noise reconstruction methods, our protocols can mitigate a wide range of noise processes that do not satisfy the assumptions underlying existing mitigation protocols, including non-local and gate-dependent processes. We test our protocols on a four-qubit superconducting processor at the Advanced Quantum Testbed. We observe significant improvements in the performance of both structured and random circuits, with up to $86\%$ improvement in variation distance over the unmitigated outputs. Our experiments demonstrate the effectiveness of our protocols, as well as their practicality for current hardware platforms. | 翻訳日:2024-07-10 06:02:09 公開日:2024-07-06 |
# 三次元感情認識における音声・視覚融合の連関型クロスアテンションモデル
A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition ( http://arxiv.org/abs/2203.14779v4 ) ライセンス: Link先を確認 | R. Gnana Praveen, Wheidima Carneiro de Melo, Nasib Ullah, Haseeb Aslam, Osama Zeeshan, Théo Denorme, Marco Pedersoli, Alessandro Koerich, Simon Bacon, Patrick Cardinal, Eric Granger, | (参考訳) マルチモーダル感情認識は、複数のモーダル(例えば、音声、視覚、生体信号など)に対する多様で相補的な関係を活用でき、ノイズの多いモーダルに対してある程度の堅牢性を提供できるため、近年注目を集めている。
オーディオ・ヴィジュアル・フュージョン(A-V)のほとんどの最先端手法は、A-Vの相補的な性質を効果的に活用しないリカレント・ネットワークや従来の注意機構に依存している。
本稿では,映像から抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
具体的には,A-Vモダリティ間で有意な特徴を抽出するために,相補的関係に依存した連係関係モデルを提案する。
提案した融合モデルは,特徴間の不均一性を低減しつつ,モーダル間関係を効率的に活用する。
特に、合成特徴表現と個々のモダリティの相関関係に基づいて、クロスアテンション重みを計算する。
結合したA-V特徴表現をクロスアテンションモジュールにデプロイすることで、当社の融合モジュールの性能はバニラクロスアテンションモジュールよりも大幅に向上する。
AffWild2データセットによる検証セットビデオの実験結果から,提案したA-V融合モデルが,最先端のアプローチよりも優れたコスト効率のソリューションを提供することが示された。
コードはGitHubで入手できる。 https://github.com/praveena2j/JointCrossAttentional-AV-Fusion。
Multimodal emotion recognition has recently gained much attention since it can leverage diverse and complementary relationships over multiple modalities (e.g., audio, visual, biosignals, etc.), and can provide some robustness to noisy modalities. Most state-of-the-art methods for audio-visual (A-V) fusion rely on recurrent networks or conventional attention mechanisms that do not effectively leverage the complementary nature of A-V modalities. In this paper, we focus on dimensional emotion recognition based on the fusion of facial and vocal modalities extracted from videos. Specifically, we propose a joint cross-attention model that relies on the complementary relationships to extract the salient features across A-V modalities, allowing for accurate prediction of continuous values of valence and arousal. The proposed fusion model efficiently leverages the inter-modal relationships, while reducing the heterogeneity between the features. In particular, it computes the cross-attention weights based on correlation between the combined feature representation and individual modalities. By deploying the combined A-V feature representation into the cross-attention module, the performance of our fusion module improves significantly over the vanilla cross-attention module. Experimental results on validation-set videos from the AffWild2 dataset indicate that our proposed A-V fusion model provides a cost-effective solution that can outperform state-of-the-art approaches. The code is available on GitHub: https://github.com/praveena2j/JointCrossAttentional-AV-Fusion. | 翻訳日:2024-07-10 06:02:09 公開日:2024-07-06 |
# ヒト脳における視覚表現は大きな言語モデルと一致している
Visual representations in the human brain are aligned with large language models ( http://arxiv.org/abs/2209.11737v2 ) ライセンス: Link先を確認 | Adrien Doerig, Tim C Kietzmann, Emily Allen, Yihan Wu, Thomas Naselaris, Kendrick Kay, Ian Charest, | (参考訳) 人間の脳は、オブジェクト、空間的および意味的相互関係、環境との相互作用を含む視覚的な入力から複雑な情報を抽出する。
しかし、この情報を研究するための定量的アプローチはいまだ解明されていない。
本稿では,大規模言語モデル (LLM) で符号化された文脈情報が,脳が自然界から抽出した複雑な視覚情報をモデル化する上で有用かどうかを検証する。
シーンキャプションのLLM埋め込みは、自然のシーンを見ることによって誘発される脳活動の特徴づけに成功していることを示す。
このマッピングは、異なる脳領域の選択性を捉え、脳の活動から正確なシーンキャプションを再構築できるほど十分に堅牢である。
次に,LLM表現が脳表現と一致する精度は,LLMが個々の単語によって伝達されるシーンキャプションに含まれる複雑な情報を統合する能力から導かれることを示す。
最後に、画像入力をLLM表現に変換するために、ディープニューラルネットワークモデルを訓練する。
注目すべきは、これらのネットワークは、大量の最先端の代替モデルよりも、脳表現に整合した表現を学習する。
以上の結果から,シーンキャプションのLLM埋め込みは,視覚入力から脳から抽出された複雑な情報を考慮した表現形式を提供する可能性が示唆された。
The human brain extracts complex information from visual inputs, including objects, their spatial and semantic interrelations, and their interactions with the environment. However, a quantitative approach for studying this information remains elusive. Here, we test whether the contextual information encoded in large language models (LLMs) is beneficial for modelling the complex visual information extracted by the brain from natural scenes. We show that LLM embeddings of scene captions successfully characterise brain activity evoked by viewing the natural scenes. This mapping captures selectivities of different brain areas, and is sufficiently robust that accurate scene captions can be reconstructed from brain activity. Using carefully controlled model comparisons, we then proceed to show that the accuracy with which LLM representations match brain representations derives from the ability of LLMs to integrate complex information contained in scene captions beyond that conveyed by individual words. Finally, we train deep neural network models to transform image inputs into LLM representations. Remarkably, these networks learn representations that are better aligned with brain representations than a large number of state-of-the-art alternative models, despite being trained on orders-of-magnitude less data. Overall, our results suggest that LLM embeddings of scene captions provide a representational format that accounts for complex information extracted by the brain from visual inputs. | 翻訳日:2024-07-10 05:52:24 公開日:2024-07-06 |
# SuperFedNAS: オンデバイス推論のためのコスト効率の良いフェデレーションニューラルネットワーク検索
SuperFedNAS: Cost-Efficient Federated Neural Architecture Search for On-Device Inference ( http://arxiv.org/abs/2301.10879v2 ) ライセンス: Link先を確認 | Alind Khare, Animesh Agrawal, Aditya Annavajjala, Payman Behnam, Myungjin Lee, Hugo Latapie, Alexey Tumanov, | (参考訳) フェデレートラーニング(FL)のためのニューラルアーキテクチャサーチ(NAS)は新興分野である。
プライバシ、通信コスト、規制制限のためにデータが集中できない場合、Deep Neural Networks(DNN)の設計とトレーニングを自動化する。
最近のフェデレーションNAS法は、手作業の労力を減らすだけでなく、FedAvgのような従来のFL法よりも高い精度を達成するのに役立つ。
成功にもかかわらず、既存のフェデレーションNASメソッドは、ハードウェア、遅延予算、可変バッテリレベルといったオンデバイス推論で一般的な多様なデプロイメントターゲットを満たすには、依然として不足している。
ほとんどのNAS法は、限られた範囲の神経構造パターンのみを探索し、それらをDNNで繰り返し、達成可能な性能を制限する。
さらに、これらの手法は、デプロイメント目標を満たすために、禁止的なトレーニングコストを発生させる。
DNNアーキテクチャのトレーニングと検索を各ケースで繰り返し行う。
SuperFedNASは、フェデレートNASのトレーニングと検索を分離することで、これらの課題に対処する。
SuperFedNASはFL設定の1つのスーパーネットに含まれる多数の多様なDNNアーキテクチャを共同で訓練している。
トレーニング後、クライアントはローカルでNASを実行し、トレーニングされたスーパーネットの異なる部分を追加のトレーニングなしで抽出することで、特別なDNNを見つける。
SuperFedNAS は O(1) (O(N) の代わりに) のコストを FL で特別な DNN アーキテクチャを見つけるのに費やします。
SuperFedNASの一部として,多数のDNNアーキテクチャ(5*10^8$)の多目的フェデレーション最適化を行う新しいFLトレーニングアルゴリズムであるMaxNetを紹介する。
全体として、SuperFedNASは同じMACに対して最大37.7%、既存のNAS法と同じ精度で最大8.13倍のMACを削減できる。
Neural Architecture Search (NAS) for Federated Learning (FL) is an emerging field. It automates the design and training of Deep Neural Networks (DNNs) when data cannot be centralized due to privacy, communication costs, or regulatory restrictions. Recent federated NAS methods not only reduce manual effort but also help achieve higher accuracy than traditional FL methods like FedAvg. Despite the success, existing federated NAS methods still fall short in satisfying diverse deployment targets common in on-device inference like hardware, latency budgets, or variable battery levels. Most federated NAS methods search for only a limited range of neuro-architectural patterns, repeat them in a DNN, thereby restricting achievable performance. Moreover, these methods incur prohibitive training costs to satisfy deployment targets. They perform the training and search of DNN architectures repeatedly for each case. SuperFedNAS addresses these challenges by decoupling the training and search in federated NAS. SuperFedNAS co-trains a large number of diverse DNN architectures contained inside one supernet in the FL setting. Post-training, clients perform NAS locally to find specialized DNNs by extracting different parts of the trained supernet with no additional training. SuperFedNAS takes O(1) (instead of O(N)) cost to find specialized DNN architectures in FL for any N deployment targets. As part of SuperFedNAS, we introduce MaxNet - a novel FL training algorithm that performs multi-objective federated optimization of a large number of DNN architectures ($\approx 5*10^8$) under different client data distributions. Overall, SuperFedNAS achieves upto 37.7% higher accuracy for the same MACs or upto 8.13x reduction in MACs for the same accuracy than existing federated NAS methods. | 翻訳日:2024-07-10 05:42:28 公開日:2024-07-06 |
# 非可換$C^*$-代数ネット:$C^*$-代数における強力な積構造を持つニューラルネットワークの学習
Noncommutative $C^*$-algebra Net: Learning Neural Networks with Powerful Product Structure in $C^*$-algebra ( http://arxiv.org/abs/2302.01191v2 ) ライセンス: Link先を確認 | Ryuichiro Hataya, Yuka Hashimoto, | (参考訳) 積の豊富な非可換構造を持つ非可換$C^*$-代数を持つニューラルネットワークパラメータ空間の新しい一般化を提案する。
この非可換構造はニューラルネットワークの学習において強力な効果をもたらすことを示す。
我々のフレームワークは、相互作用と同時に複数の関連するニューラルネットワークを学習したり、グループアクションに関して同種の特徴を学習したりするなど、幅広い用途を持っている。
数値実験は、我々の枠組みの妥当性とその潜在能力を示す。
We propose a new generalization of neural network parameter spaces with noncommutative $C^*$-algebra, which possesses a rich noncommutative structure of products. We show that this noncommutative structure induces powerful effects in learning neural networks. Our framework has a wide range of applications, such as learning multiple related neural networks simultaneously with interactions and learning equivariant features with respect to group actions. Numerical experiments illustrate the validity of our framework and its potential power. | 翻訳日:2024-07-10 05:42:28 公開日:2024-07-06 |
# Render-and-Compare:Cross-View 6 DoF Localization from Noisy Prior
Render-and-Compare: Cross-View 6 DoF Localization from Noisy Prior ( http://arxiv.org/abs/2302.06287v2 ) ライセンス: Link先を確認 | Shen Yan, Xiaoya Cheng, Yuxiang Liu, Juelin Zhu, Rouwan Wu, Yu Liu, Maojun Zhang, | (参考訳) 6-DoFの視覚的ローカライゼーションの大幅な進歩にもかかわらず、研究者は主に地上レベルのベンチマークによって推進されている。
空中斜め撮影と比較すると、地上マップの収集にはスケーラビリティと完全なカバレッジが欠けている。
本研究では,従来の地上レベルの設定を超えて,空中から地上へのクロスビューのローカライゼーションを活用することを提案する。
我々は、カメラポーズ推定を反復的レンダリング・アンド・コンパレートパイプラインとして定式化し、ノイズの多い初期から種子を増量することで堅牢性を高めることで、この問題を解決する。
研究対象の公開データセットが存在しないため、スマートフォンやドローンからさまざまなクロスビュー画像を提供する新たなデータセットを収集し、クエリ画像の接地トルースポーズを取得するための半自動システムを開発する。
我々は,提案手法といくつかの最先端ベースラインをベンチマークし,提案手法が他の手法よりも大きなマージンで優れていることを示す。
Despite the significant progress in 6-DoF visual localization, researchers are mostly driven by ground-level benchmarks. Compared with aerial oblique photography, ground-level map collection lacks scalability and complete coverage. In this work, we propose to go beyond the traditional ground-level setting and exploit the cross-view localization from aerial to ground. We solve this problem by formulating camera pose estimation as an iterative render-and-compare pipeline and enhancing the robustness through augmenting seeds from noisy initial priors. As no public dataset exists for the studied problem, we collect a new dataset that provides a variety of cross-view images from smartphones and drones and develop a semi-automatic system to acquire ground-truth poses for query images. We benchmark our method as well as several state-of-the-art baselines and demonstrate that our method outperforms other approaches by a large margin. | 翻訳日:2024-07-10 05:42:28 公開日:2024-07-06 |
# ビジョンと言語モデルは概念を共有するか? : ベクトル空間アライメントによる研究
Do Vision and Language Models Share Concepts? A Vector Space Alignment Study ( http://arxiv.org/abs/2302.06555v2 ) ライセンス: Link先を確認 | Jiaang Li, Yova Kementchedjhieva, Constanza Fierro, Anders Søgaard, | (参考訳) 大規模事前訓練言語モデル(LM)は「「「発話を世界と繋げる能力の欠如」(Bender and Koller, 2020)といわれ、それらは「世界の感情モデル」を持たない(Mitchell and Krakauer, 2023)。
もしそうなら、LM表現はビジョンモデルによって誘導される表現とは無関係であると予想される。
LMの4つのファミリ(BERT, GPT-2, OPT, LLaMA-2)と3つの視覚モデルアーキテクチャ(ResNet, SegFormer, MAE)を比較検討した。
実験の結果,LMは視覚モデルに準同型な表現に部分的に収束し,分散,ポリセミー,周波数を呈することがわかった。
これはマルチモーダル処理とLM理解の議論の両方に重要な意味を持つ(Mitchell and Krakauer, 2023)。
Large-scale pretrained language models (LMs) are said to ``lack the ability to connect utterances to the world'' (Bender and Koller, 2020), because they do not have ``mental models of the world' '(Mitchell and Krakauer, 2023). If so, one would expect LM representations to be unrelated to representations induced by vision models. We present an empirical evaluation across four families of LMs (BERT, GPT-2, OPT and LLaMA-2) and three vision model architectures (ResNet, SegFormer, and MAE). Our experiments show that LMs partially converge towards representations isomorphic to those of vision models, subject to dispersion, polysemy and frequency. This has important implications for both multi-modal processing and the LM understanding debate (Mitchell and Krakauer, 2023). | 翻訳日:2024-07-10 05:42:28 公開日:2024-07-06 |
# 微粒な異常検出を目指す解法
Dissolving Is Amplifying: Towards Fine-Grained Anomaly Detection ( http://arxiv.org/abs/2302.14696v3 ) ライセンス: Link先を確認 | Jian Shi, Pengyi Zhang, Ni Zhang, Hakim Ghazzai, Peter Wonka, | (参考訳) 医用画像は、しばしば腫瘍や出血などの重要な微細な特徴を含んでおり、診断には重要であるが、従来の方法では検出するには微妙すぎる可能性がある。
本稿では, 溶解が増幅される「textit{DIA}」を紹介する。
DIAは医療画像の微細な異常検出フレームワークである。
まず textit{dissolving transformations {\displaystyle \textit{dissolving transformations} を紹介する。
生成拡散モデルを用いて拡散を専用特徴認識デノイザとして利用する。
特定の方法で医用画像に拡散させることは、きめ細かい識別的特徴を除去または除去することができる。
第2に,医用画像の意味的に意味のある表現を自己監督的に学習するために,対照的な学習に基づく‘textit{amplifying framework’を導入する。
増幅フレームワークは、適用された変換を解消することなく追加画像の対を対比し、溶解した微細な特徴を強調する。
DIAは、AUCがベースライン法に対して約18.40 %向上し、医療異常検出性能を大幅に改善し、他のベンチマーク法に対して全体的なSOTAを達成する。
私たちのコードは \url{https://github.com/shijianjian/DIA.git} で利用可能です。
Medical imaging often contains critical fine-grained features, such as tumors or hemorrhages, crucial for diagnosis yet potentially too subtle for detection with conventional methods. In this paper, we introduce \textit{DIA}, dissolving is amplifying. DIA is a fine-grained anomaly detection framework for medical images. First, we introduce \textit{dissolving transformations}. We employ diffusion with a generative diffusion model as a dedicated feature-aware denoiser. Applying diffusion to medical images in a certain manner can remove or diminish fine-grained discriminative features. Second, we introduce an \textit{amplifying framework} based on contrastive learning to learn a semantically meaningful representation of medical images in a self-supervised manner, with a focus on fine-grained features. The amplifying framework contrasts additional pairs of images with and without dissolving transformations applied and thereby emphasizes the dissolved fine-grained features. DIA significantly improves the medical anomaly detection performance with around 18.40\% AUC boost against the baseline method and achieves an overall SOTA against other benchmark methods. Our code is available at \url{https://github.com/shijianjian/DIA.git}. | 翻訳日:2024-07-10 05:42:28 公開日:2024-07-06 |
# ロバストなUNetデノイザを用いたゼロオーダーブラックボックスディフェンス認証
Certified Zeroth-order Black-Box Defense with Robust UNet Denoiser ( http://arxiv.org/abs/2304.06430v2 ) ライセンス: Link先を確認 | Astha Verma, A V Subramanyam, Siddhesh Bangar, Naman Lal, Rajiv Ratn Shah, Shin'ichi Satoh, | (参考訳) 近年,ゼロオーダー(ZO)視点のブラックボックス設定において,対向的摂動に対する認証防御法が検討されている。
しかし、これらの手法は、デノイザの非効率設計による高次元データセット上での低性能のモデル分散に悩まされており、ZO技術の利用に制限がある。
そこで本研究では,モデルクエリのみを用いたブラックボックス設定において,攻撃画像から逆方向の摂動を取り除くための認証ZO前処理手法を提案する。
本研究では,高次元データセットでトレーニングしたブラックボックスモデルのロバスト性を保証するロバストなUNetデノイザ(RDUNet)を提案する。
我々は,我々のRDUNetをブラックボックスモデルに前倒しし,ブラックボックスの防御を確実にすることで,新しいブラックボックス型スムーシング(DS)防御機構ZO-RUDSを提案する。
さらに,RDUNetと自動エンコーダ(AE)を併用したZO-AE-RUDSを提案する。
CIFAR-10, CIFAR-10, Tiny Imagenet, STL-10, MNISTの4つの分類データセットについて広範囲に実験を行った。
提案した防衛手法であるZO-RUDSとZO-AE-RUDSは,低次元(CIFAR-10)と20.61\%,高次元(STL-10)データセットで23.51\%という大きなマージンでSOTAを破る。
Certified defense methods against adversarial perturbations have been recently investigated in the black-box setting with a zeroth-order (ZO) perspective. However, these methods suffer from high model variance with low performance on high-dimensional datasets due to the ineffective design of the denoiser and are limited in their utilization of ZO techniques. To this end, we propose a certified ZO preprocessing technique for removing adversarial perturbations from the attacked image in the black-box setting using only model queries. We propose a robust UNet denoiser (RDUNet) that ensures the robustness of black-box models trained on high-dimensional datasets. We propose a novel black-box denoised smoothing (DS) defense mechanism, ZO-RUDS, by prepending our RDUNet to the black-box model, ensuring black-box defense. We further propose ZO-AE-RUDS in which RDUNet followed by autoencoder (AE) is prepended to the black-box model. We perform extensive experiments on four classification datasets, CIFAR-10, CIFAR-10, Tiny Imagenet, STL-10, and the MNIST dataset for image reconstruction tasks. Our proposed defense methods ZO-RUDS and ZO-AE-RUDS beat SOTA with a huge margin of $35\%$ and $9\%$, for low dimensional (CIFAR-10) and with a margin of $20.61\%$ and $23.51\%$ for high-dimensional (STL-10) datasets, respectively. | 翻訳日:2024-07-10 03:48:51 公開日:2024-07-06 |
# 強化学習と生成事前学習モデルを用いた四足歩行ロボットの生活習慣と遊び
Lifelike Agility and Play in Quadrupedal Robots using Reinforcement Learning and Generative Pre-trained Models ( http://arxiv.org/abs/2308.15143v2 ) ライセンス: Link先を確認 | Lei Han, Qingxu Zhu, Jiapeng Sheng, Chong Zhang, Tingguang Li, Yizheng Zhang, He Zhang, Yuzhen Liu, Cheng Zhou, Rui Zhao, Jie Li, Yufeng Zhang, Rui Wang, Wanchao Chi, Xiong Li, Yonghui Zhu, Lingzhu Xiang, Xiao Teng, Zhengyou Zhang, | (参考訳) 動物や人間からの知識はロボットのイノベーションを刺激する。
古典的なコントローラや強化学習アプローチを通じて,四足歩行ロボットのアジャイルな移動を実現するために,数多くの努力がなされている。
これらの方法は、通常、動物のように一般化された理解よりも、特定のシステムを正確に記述するために、物理的モデルや手作りの報酬に頼っている。
本稿では,ロボットに事前学習可能で,再利用可能で,豊かである原始的,環境的,戦略的レベルの知識を構築するための階層的枠組みを提案する。
原始的なモジュールは、動物の動きデータから知識を要約し、言語と画像理解における大きな事前学習モデルに触発されて、ロボットが本物の動物のように振る舞うことを刺激する運動制御信号を生成するための深い生成モデルを導入する。
そして、プリミティブモジュールを再利用して環境に整合するように、様々なトラバース機能を高いレベルで形成する。
最後に、戦略的モジュールは、以前のレベルからの知識を再利用することによって、複雑な下流タスクに焦点を当てて訓練される。
トレーニングされた階層型コントローラを、社内で開発された四足歩行ロボットMAXロボットに適用し、動物を模倣し、複雑な障害物を横切り、設計上の挑戦的なマルチエージェント・チェイスタグゲームでプレイする。
Knowledge from animals and humans inspires robotic innovations. Numerous efforts have been made to achieve agile locomotion in quadrupedal robots through classical controllers or reinforcement learning approaches. These methods usually rely on physical models or handcrafted rewards to accurately describe the specific system, rather than on a generalized understanding like animals do. Here we propose a hierarchical framework to construct primitive-, environmental- and strategic-level knowledge that are all pre-trainable, reusable and enrichable for legged robots. The primitive module summarizes knowledge from animal motion data, where, inspired by large pre-trained models in language and image understanding, we introduce deep generative models to produce motor control signals stimulating legged robots to act like real animals. Then, we shape various traversing capabilities at a higher level to align with the environment by reusing the primitive module. Finally, a strategic module is trained focusing on complex downstream tasks by reusing the knowledge from previous levels. We apply the trained hierarchical controllers to the MAX robot, a quadrupedal robot developed in-house, to mimic animals, traverse complex obstacles and play in a designed challenging multi-agent chase tag game, where lifelike agility and strategy emerge in the robots. | 翻訳日:2024-07-10 03:38:37 公開日:2024-07-06 |
# 8kHzライン幅のコーナーキューブフィードバックファラデーレーザー
A corner-cube-feedback Faraday laser with 8 kHz linewidth ( http://arxiv.org/abs/2309.04485v2 ) ライセンス: Link先を確認 | Zhiyang Wang, Zijie Liu, Jianxiang Miao, Hangbo Shi, Xiaomin Qin, Xiaolei Guan, Jia Zhang, Pengyuan Chang, Tiantian Shi, Jingbiao Chen, | (参考訳) コーナーキューブフィードバックに基づく単一モードCs原子Faradayレーザーを実証し、コーナーキューブフィードバックFaradayレーザーと呼ぶ。
コーナーキューブ逆反射器をファラデーレーザーの外部キャビティフィードバック素子として使用することにより、入射光の正確な反射により機械的堅牢性を大幅に向上させることができる。
このファラデーレーザーは、入射光とコーナー立方体の光軸の間、+3{\deg} から -3{\deg} までの大きな角度でレーザー発振を達成できる。
最も可能性の高い線幅は、2つの同一のレーザーでヘテロダインを叩くことで測定される8kHzである。
さらに、ダイオード電流は55mAから155mAに変化し、ダイオード加工温度は摂氏11.8から37.2度に変化しても、その出力周波数はCs原子ドップラー拡散遷移線に近いままである。
コーナーキューブフィードバックのファラデーレーザーは、原子時計、原子重力計、原子磁気センサなどの量子精度測定に広く用いられる。
A single-mode Cs atom 852 nm Faraday laser based on the corner cube feedback is demonstrated, and termed as corner-cube-feedback Faraday laser. Using the corner-cube retroreflector as external cavity feedback element in Faraday laser, mechanical robustness can be greatly improved due to the precise reflection of the incident light beam back to its original direction. This Faraday laser can achieve laser oscillation at a large angle, which between the incident light and the optical axis of corner cube, ranging from +3{\deg} to -3{\deg}. The most probable linewidth is 8 kHz measured by heterodyne beating with two identical lasers. Moreover, its output frequency remains close to the Cs atomic Doppler-broadened transition line, even though the diode current changes from 55 mA to 155 mA and the diode working temperature varies from 11.8 to 37.2 degrees Celsius. The corner-cube-feedback Faraday laser with high mechanical robustness as well as narrow linewidth can be widely used in quantum precision measurement, such as atomic clocks, atomic gravimeters, and atomic magnetometers, etc. | 翻訳日:2024-07-10 03:28:33 公開日:2024-07-06 |
# ジャストインタイムカーネル最適化によるエッジデバイス上でのブラウザ内ディープラーニング推論
Empowering In-Browser Deep Learning Inference on Edge Devices with Just-in-Time Kernel Optimizations ( http://arxiv.org/abs/2309.08978v2 ) ライセンス: Link先を確認 | Fucheng Jia, Shiqi Jiang, Ting Cao, Wei Cui, Tianrui Xia, Xu Cao, Yuanchun Li, Deyu Zhang, Ju Ren, Yunxin Liu, Lili Qiu, Mao Yang, | (参考訳) Webは、エッジデバイスにAIサービスを提供する主要なプラットフォームになりつつあるため、ブラウザ内ディープラーニング(DL)推論がより顕著になっている。
それでも、エッジデバイスの異質性は、未開発のWebハードウェアアクセラレーションのプラクティスと相まって、現在のブラウザ内推論がターゲットデバイス上での完全なパフォーマンスのポテンシャルを達成することを妨げている。
本稿では,エッジデバイス向けに最適化されたコンピューティングカーネルのジャスト・イン・タイム(JIT)自動生成を可能にする,先駆的なブラウザ推論システム nnJIT を提案する。
Tensor-Web Compiling Co-Designは、冗長で効率的なコンパイルパスを排除して、コンパイルコストを約100倍削減する。 Web-Specific Lite Kernel Optimization Spaceは、Webプログラミングの要件と効率的なデバイスリソース利用に集中することにより、カーネルチューニングコストを削減し、最適化スペースを数百万から数十に短縮する。
nnJITは、ARM、Intel、AMD、Nvidiaのさまざまなブラウザとハードウェアを使用したラップトップやスマートフォンを含む、さまざまなエッジデバイス上で、現代的なモデル(例えば、BART、T5、Llama 2)で評価されている。
その結果、nJITは既存のベースラインと比較して30秒で最大8.2倍高速に達成できることがわかった。
Web is increasingly becoming the primary platform to deliver AI services onto edge devices, making in-browser deep learning (DL) inference more prominent. Nevertheless, the heterogeneity of edge devices, combined with the underdeveloped state of Web hardware acceleration practices, hinders current in-browser inference from achieving its full performance potential on target devices. To address this issue, this paper presents the pioneering inbrowser inference system, nnJIT, which enables just-in-time (JIT) auto-generation of optimized computing kernels for edge devices. nnJIT is built upon two novel techniques that significantly reduce kernel search and compilation overhead while improving performance firmly: Tensor-Web Compiling Co-Design lowers compiling costs by around 100X through eliminating redundant and ineffective compiling passes; Web-Specific Lite Kernel Optimization Space reduces kernel tuning costs by focusing on Web programming requirements and efficient device resource utilization, pruning the optimization space from millions to only dozens. nnJIT is evaluated for modern models, e.g., BART, T5, and Llama 2, on a range of edge devices including laptops and smartphones using different browsers and hardware from ARM, Intel, AMD and Nvidia. The results show that nnJIT can achieve up to 8.2X faster within 30 seconds compared to the existing baselines. | 翻訳日:2024-07-10 03:28:33 公開日:2024-07-06 |
# 分散状態における超伝導立方体の確率モデリング
Stochastic modeling of superconducting qudits in the dispersive regime ( http://arxiv.org/abs/2310.18856v2 ) ライセンス: Link先を確認 | Kangdi Yu, Murat C. Sarihan, Jin Ho Kang, Madeline Taylor, Cody S. Fan, Ananyo Banerjee, Jonathan L. DuBois, Yaniv J. Rosen, Chee Wei Wong, | (参考訳) ジョセフソン接合に基づく超伝導量子コンピューティングの分野は、最近、論理量子ビットの数のスケーリングにおいて顕著な進歩を見せている。
特に、1ビットと2ビットのゲートの忠実度は、新しい誤差緩和法と補正法によって破局点に達している。
これらの進歩と並行して、ヒルベルト空間を単一のジャンクションやデバイス内で拡張する努力は、高次元の量子ビット(英語版)(qudits)と呼ばれる)を用いることによって行われる。
トランスモンで高次遷移を駆動したり、革新的なマルチモード超伝導回路を設計する可能性を実証した。
これらの進歩は、大規模量子プロセッサにおける相互接続を簡素化しながら、計算基盤を大幅に拡張することができる。
本研究では, 従来の超伝導量子ビットの測定理論をquditに拡張し, 開量子系における分散二次測定のモデル化に着目する。
マルコフの仮定の下では、クディット・リンドブラッド(英語版)と確率的マスター方程式(英語版)が定式化され、分析され、さらに、アンサンブル平均とデコヒーレンス解析の量子ジャンプアプローチの両方が解析的および数値的な比較によって詳述される。
本研究では,この確率モデルをトランスモン型キュートリットの一連の実験結果で検証し,高次元形式の有効性を検証した。
The field of superconducting quantum computing, based on Josephson junctions, has recently seen remarkable strides in scaling the number of logical qubits. In particular, the fidelities of one- and two-qubit gates have reached the breakeven point with the novel error mitigation and correction methods. Parallel to these advances is the effort to expand the Hilbert space within a single junction or device by employing high-dimensional qubits, otherwise known as qudits. Research has demonstrated the possibility of driving higher-order transitions in a transmon or designing innovative multimode superconducting circuits, termed multimons. These advances can significantly expand the computational basis while simplifying the interconnects in a large-scale quantum processor. In this work we extend the measurement theory of a conventional superconducting qubit to that of a qudit, focusing on modeling the dispersive quadrature measurement in an open quantum system. Under the Markov assumption, the qudit Lindblad and stochastic master equations are formulated and analyzed; in addition, both the ensemble-averaged and the quantum-jump approach of decoherence analysis are detailed with analytical and numerical comparisons. We verify our stochastic model with a series of experimental results on a transmon-type qutrit, verifying the validity of our high-dimensional formalism. | 翻訳日:2024-07-10 03:18:28 公開日:2024-07-06 |
# 解釈可能なシーケンス継続に向けて:大規模言語モデルにおける共有回路の解析
Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language Models ( http://arxiv.org/abs/2311.04131v4 ) ライセンス: Link先を確認 | Michael Lan, Phillip Torr, Fazl Barez, | (参考訳) トランスフォーマーモデルは言語的タスクに強い能力を示すが、それらの複雑なアーキテクチャは解釈を困難にしている。
最近の研究は、トランスフォーマーモデルをアルゴリズム機能を実装する回路と呼ばれる人間可読表現にリバースエンジニアリングすることを目的としている。
この研究は、アラビア数字、数語、月数列の増加を含む、類似のシーケンス継続タスクの回路の解析と比較によって拡張される。
GPT-2 Small と Llama-2-7B の両方のキーサブ回路を回路の解釈可能性解析により同定し、シーケンス部材を検出し、次のメンバを列で予測する。
解析の結果、意味的関連配列は類似した役割を持つ共有回路サブグラフに依存していることが明らかとなった。
さらに, このサブ回路は, インターバル回路, スペイン語の数字と月数継続, 自然言語の単語問題など, 様々な数学的なプロンプトに影響を及ぼすことを示す。
全体として、共有された計算構造の文書化は、より良いモデル行動予測、エラーの識別、より安全な編集手順を可能にする。
トランスフォーマーのこの機械的理解は、より堅牢で整合的で解釈可能な言語モデルを構築するための重要なステップである。
While transformer models exhibit strong capabilities on linguistic tasks, their complex architectures make them difficult to interpret. Recent work has aimed to reverse engineer transformer models into human-readable representations called circuits that implement algorithmic functions. We extend this research by analyzing and comparing circuits for similar sequence continuation tasks, which include increasing sequences of Arabic numerals, number words, and months. By applying circuit interpretability analysis, we identify a key sub-circuit in both GPT-2 Small and Llama-2-7B responsible for detecting sequence members and for predicting the next member in a sequence. Our analysis reveals that semantically related sequences rely on shared circuit subgraphs with analogous roles. Additionally, we show that this sub-circuit has effects on various math-related prompts, such as on intervaled circuits, Spanish number word and months continuation, and natural language word problems. Overall, documenting shared computational structures enables better model behavior predictions, identification of errors, and safer editing procedures. This mechanistic understanding of transformers is a critical step towards building more robust, aligned, and interpretable language models. | 翻訳日:2024-07-10 03:18:28 公開日:2024-07-06 |
# 同じ質問紙の繰り返し実施時における利用者の意識維持--大規模言語モデルを用いて質問を確実に多様化させる
Keeping Users Engaged During Repeated Administration of the Same Questionnaire: Using Large Language Models to Reliably Diversify Questions ( http://arxiv.org/abs/2311.12707v2 ) ライセンス: Link先を確認 | Hye Sun Yun, Mehdi Arjmand, Phillip Sherlock, Michael K. Paasche-Orlow, James W. Griffith, Timothy Bickmore, | (参考訳) 標準化された、検証されたアンケートは、研究と医療において重要なツールであり、信頼できる自己申告データを提供する。
先行研究により、仮想エージェント管理アンケートは電子形式で自己管理アンケートとほぼ同等であることが判明した。
エンゲージメント手法であるにもかかわらず、縦・前後研究における仮想エージェント管理アンケートの繰り返し使用は、応答疲労を誘発し、応答バイアスによるデータ品質に影響を及ぼし、応答率を低下させる可能性がある。
本研究では,大規模言語モデル (LLMs) を用いて,優れた心理指標特性を維持しつつ,多様なアンケートバージョンを生成することを提案する。
縦断的研究では,参加者はエージェントシステムと対話し,標準化された抑うつアンケート,LSMによる質問変量,LSMによる質問変量,LSMによる小さな話を伴う質問変量のいずれかに2週間回答した。
回答は、評価された抑うつアンケートと比較された。
心理測定では, 外部基準と焦点測定との間に一貫した相違がみられ, LLM産生変異体の信頼性と妥当性が示された。
参加者は、この変種が、同じ基準化されたアンケートの繰り返し投与よりも、かなり少ないことを見出した。
以上の結果から, LLM生成型は, 有効性を損なうことなく, エージェント管理型質問紙を活性化し, エンゲージメントと関心を高めることができる可能性が示唆された。
Standardized, validated questionnaires are vital tools in research and healthcare, offering dependable self-report data. Prior work has revealed that virtual agent-administered questionnaires are almost equivalent to self-administered ones in an electronic form. Despite being an engaging method, repeated use of virtual agent-administered questionnaires in longitudinal or pre-post studies can induce respondent fatigue, impacting data quality via response biases and decreased response rates. We propose using large language models (LLMs) to generate diverse questionnaire versions while retaining good psychometric properties. In a longitudinal study, participants interacted with our agent system and responded daily for two weeks to one of the following questionnaires: a standardized depression questionnaire, question variants generated by LLMs, or question variants accompanied by LLM-generated small talk. The responses were compared to a validated depression questionnaire. Psychometric testing revealed consistent covariation between the external criterion and focal measure administered across the three conditions, demonstrating the reliability and validity of the LLM-generated variants. Participants found that the variants were significantly less repetitive than repeated administrations of the same standardized questionnaire. Our findings highlight the potential of LLM-generated variants to invigorate agent-administered questionnaires and foster engagement and interest, without compromising their validity. | 翻訳日:2024-07-10 03:18:28 公開日:2024-07-06 |
# 集団効果を有するLEDの超熱光子統計量の集団変動機構
Population fluctuation mechanism of the super-thermal photon statistic of LEDs with collective effects ( http://arxiv.org/abs/2311.15324v2 ) ライセンス: Link先を確認 | Igor E. Protsenko, Alexander V. Uskov, | (参考訳) その結果,エミッタ数の変動は線形状態の小さなLEDの超熱光子統計につながり,強いエミッタ-フィールド結合と集合効果に好適なキャビティを有することがわかった。
2階相関関数 g_2 の簡単な解析式が見つかる。
2レベルLEDモデルでは、g_2がg_2=6まで増加することが予測される。
超熱光子統計は、自然発生のキャビティモードへの人口変動の増加に関連している。
We found that fluctuations in the number of emitters lead to a super-thermal photon statistics of small LEDs in a linear regime, with a strong emitter-field coupling and a bad cavity favorable for collective effects. A simple analytical expression for the second-order correlation function g_2 is found. g_2 increase up to g_2=6 in the two-level LED model is predicted. The super-thermal photon statistics is related to the population fluctuation increase of the spontaneous emission to the cavity mode. | 翻訳日:2024-07-10 03:08:43 公開日:2024-07-06 |
# 丁井行列の無限次元類似
Infinite dimensional analogues of Choi matrices ( http://arxiv.org/abs/2311.18240v2 ) ライセンス: Link先を確認 | Kyung Hoon Han, Seung-Hyeok Kye, Erling Størmer, | (参考訳) フォン・ノイマン因子上の線型写像のクラスについて、2つの対象、有界作用素とトレースクラス作用素を関連付ける。
それぞれが正であることと、その因子上の元の写像が完全に正であることは同値である。
また、これらは写像の正の積と完全正の積を特徴づけるのにも有用である。
応用として、無限次元の場合において、$k$-正写像のチェイ行列の観点から、正規正函数のシュミット数に対する基準を与える。
また、$k$-super positive map という概念も定義し、これは $k$-partially entanglement break の性質と同値であることが判明した。
For a class of linear maps on a von Neumann factor, we associate two objects, bounded operators and trace class operators, both of which play the roles of Choi matrices. Each of them is positive if and only if the original map on the factor is completely positive. They are also useful to characterize positivity of maps as well as complete positivity. It turns out that such correspondences are possible for every normal completely bounded map if and only if the factor is of type I. As an application, we provide criteria for Schmidt numbers of normal positive functionals in terms of Choi matrices of $k$-positive maps, in infinite dimensional cases. We also define the notion of $k$-superpositive maps, which turns out to be equivalent to the property of $k$-partially entanglement breaking. | 翻訳日:2024-07-10 03:08:43 公開日:2024-07-06 |
# QuaR-VLA:四足歩行ロボットの視覚言語行動モデル
QUAR-VLA: Vision-Language-Action Model for Quadruped Robots ( http://arxiv.org/abs/2312.14457v5 ) ライセンス: Link先を確認 | Pengxiang Ding, Han Zhao, Wenxuan Song, Wenjie Zhang, Min Zhang, Siteng Huang, Ningxi Yang, Donglin Wang, | (参考訳) ロボットインテリジェンスの重要な発現は、自然と対話し、自律的に意思決定する能力である。
従来のロボット制御のアプローチは、知覚、計画、意思決定を分割し、システム設計を単純化するが、異なる情報ストリーム間のシナジーを制限する。
この区画化は、シームレスな自律的推論、意思決定、行動実行を達成する上での課題を提起する。
これらの制約に対処するため、Quadruped Robots (QUAR-VLA) のためのビジョン・ランゲージ・アクション・タスク(Vision-Language-Action task)という新しいパラダイムが論文で紹介されている。
このアプローチは、視覚情報と指示を密に統合し、実行可能なアクションを生成し、知覚、計画、意思決定を効果的にマージする。
中心となるアイデアは、ロボットの全体的な知性を高めることだ。
この枠組みの中で注目すべき課題は、きめ細かい指示を視覚的知覚情報と整合させることである。
これは、ロボットが視覚的な観察と調和して正確に解釈し、詳細な指示に従って行動することを保証する複雑さを強調している。
そこで本研究では,VLAモデルのファミリーである Quadruped Robotic Transformer (QUART) を提案し,実世界のロボットの入力として様々なモードから視覚情報と指示を統合し,実世界のロボットに対して実行可能なアクションを生成するとともに, quadruped Robot Dataset (QUARD) を提示する。
評価試験(4000回)により,本手法がロボットの能力向上に寄与し,QUIRTが創発的能力の獲得に有効であることが示唆された。
The important manifestation of robot intelligence is the ability to naturally interact and autonomously make decisions. Traditional approaches to robot control often compartmentalize perception, planning, and decision-making, simplifying system design but limiting the synergy between different information streams. This compartmentalization poses challenges in achieving seamless autonomous reasoning, decision-making, and action execution. To address these limitations, a novel paradigm, named Vision-Language-Action tasks for QUAdruped Robots (QUAR-VLA), has been introduced in this paper. This approach tightly integrates visual information and instructions to generate executable actions, effectively merging perception, planning, and decision-making. The central idea is to elevate the overall intelligence of the robot. Within this framework, a notable challenge lies in aligning fine-grained instructions with visual perception information. This emphasizes the complexity involved in ensuring that the robot accurately interprets and acts upon detailed instructions in harmony with its visual observations. Consequently, we propose QUAdruped Robotic Transformer (QUART), a family of VLA models to integrate visual information and instructions from diverse modalities as input and generates executable actions for real-world robots and present QUAdruped Robot Dataset (QUARD), a large-scale multi-task dataset including navigation, complex terrain locomotion, and whole-body manipulation tasks for training QUART models. Our extensive evaluation (4000 evaluation trials) shows that our approach leads to performant robotic policies and enables QUART to obtain a range of emergent capabilities. | 翻訳日:2024-07-10 02:58:36 公開日:2024-07-06 |
# Effecitve クロスモーダル蒸留による視覚接地のためのブリジングモダリティギャップ
Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal Distillation ( http://arxiv.org/abs/2312.17648v2 ) ライセンス: Link先を確認 | Jiaxi Wang, Wenhui Hu, Xueyang Liu, Beihu Wu, Yuting Qiu, YingYing Cai, | (参考訳) 視覚的グラウンドティングは、画像の特定の領域の視覚情報を対応する自然言語表現と整合させることを目的としている。
現在の視覚的接地法は、視覚的特徴と言語的特徴を得るために、訓練済みの視覚的および言語的バックボーンを独立して利用する。
これら2つの特徴は精巧に設計されたネットワークを通じて融合されるが、特徴の不均一性により、多モーダル推論には適さない。
この問題は、現在の視覚的接地法で使用される単一のモーダルな事前学習バックボーン間のドメインギャップから生じる。
そこで本研究では,マルチモーダルな事前学習モデルを用いて視覚的グラウンド化作業の指導を行うEmpowering Pre-trained Model for Visual Grounding (EpmVG) フレームワークを提案する。
EpmVGは、トレーニング済みのモデルから画像やテキストの一貫性情報を効果的に導入し、バックボーンネットワークのドメインギャップを小さくし、視覚的グラウンド処理におけるモデルの性能を向上させる、新しいクロスモーダル蒸留機構に依存している。
従来の5つのデータセットに対して大規模な実験を行い,本手法が最先端の手法よりも優れた性能を発揮することを示した。
Visual grounding aims to align visual information of specific regions of images with corresponding natural language expressions. Current visual grounding methods leverage pre-trained visual and language backbones independently to obtain visual features and linguistic features. Although these two types of features are then fused through elaborately designed networks, the heterogeneity of the features renders them unsuitable for multi-modal reasoning. This problem arises from the domain gap between the single-modal pre-training backbones used in current visual grounding methods, which can hardly be bridged by the traditional end-to-end training method. To alleviate this, our work proposes an Empowering Pre-trained Model for Visual Grounding (EpmVG) framework, which distills a multimodal pre-trained model to guide the visual grounding task. EpmVG relies on a novel cross-modal distillation mechanism that can effectively introduce the consistency information of images and texts from the pre-trained model, reducing the domain gap in the backbone networks, and thereby improving the performance of the model in the visual grounding task. Extensive experiments have been conducted on five conventionally used datasets, and the results demonstrate that our method achieves better performance than state-of-the-art methods. | 翻訳日:2024-07-10 02:58:36 公開日:2024-07-06 |
# ConKeD:キーポイントベース網膜画像登録のためのマルチビューコントラスト記述子学習
ConKeD: Multiview contrastive descriptor learning for keypoint-based retinal image registration ( http://arxiv.org/abs/2401.05901v2 ) ライセンス: Link先を確認 | David Rivas-Villar, Álvaro S. Hervella, José Rouco, Jorge Novo, | (参考訳) 網膜画像の登録は、医学的実践に広く応用されているため、最も重要である。
本研究では,網膜画像登録のための記述子を学習するための新しい深層学習手法であるConKeDを提案する。
現在の登録方法とは対照的に,本手法では,利用可能なトレーニングサンプルから追加情報を活用することができる,新しい多正多負のコントラスト学習戦略を採用している。
これにより、限られたトレーニングデータから高品質な記述子を学ぶことができる。
ConKeDをトレーニングし、評価するために、これらの記述子とドメイン固有のキーポイント、特に深層ニューラルネットワークを用いて検出される血管分岐とクロスオーバーを組み合わせます。
実験結果から, 広範に使用されている三重項損失技術(単正・単負)と, 単正の多負の代替手段に勝るものとして, 新規多負戦略の利点が示された。
さらに、ConKeDとドメイン固有のキーポイントの組み合わせは、前処理の回避、トレーニングサンプルの削減、検出されたキーポイントの削減など、最先端の網膜画像登録手法に匹敵する結果をもたらす。
したがって、ConKeDは網膜画像登録のための深層学習法の開発と応用を促進するための有望な可能性を示している。
Retinal image registration is of utmost importance due to its wide applications in medical practice. In this context, we propose ConKeD, a novel deep learning approach to learn descriptors for retinal image registration. In contrast to current registration methods, our approach employs a novel multi-positive multi-negative contrastive learning strategy that enables the utilization of additional information from the available training samples. This makes it possible to learn high quality descriptors from limited training data. To train and evaluate ConKeD, we combine these descriptors with domain-specific keypoints, particularly blood vessel bifurcations and crossovers, that are detected using a deep neural network. Our experimental results demonstrate the benefits of the novel multi-positive multi-negative strategy, as it outperforms the widely used triplet loss technique (single-positive and single-negative) as well as the single-positive multi-negative alternative. Additionally, the combination of ConKeD with the domain-specific keypoints produces comparable results to the state-of-the-art methods for retinal image registration, while offering important advantages such as avoiding pre-processing, utilizing fewer training samples, and requiring fewer detected keypoints, among others. Therefore, ConKeD shows a promising potential towards facilitating the development and application of deep learning-based methods for retinal image registration. | 翻訳日:2024-07-10 02:58:36 公開日:2024-07-06 |
# ベンチマーク量子コンピュータシミュレーションソフトウェアパッケージ:状態ベクトルシミュレータ
Benchmarking Quantum Computer Simulation Software Packages: State Vector Simulators ( http://arxiv.org/abs/2401.09076v2 ) ライセンス: Link先を確認 | Amit Jamadagni, Andreas M. Läuchli, Cornelius Hempel, | (参考訳) 量子コンピューティング技術の急速な進歩により、アルゴリズム設計と量子ハードウェアから得られる結果の検証を可能にするソフトウェアシミュレータの必要性が高まっている。
これには、量子コンピュータが古典的コンピュータを同じタスクで上回る量子優位性(quantum advantage)の条件を探索することを目的とした計算が含まれる。
高性能コンピューティング(HPC)プラットフォームは、今日の量子デバイスが、強力なワークステーションがモデル化できる限界を超えてすでに到達しているため、重要な役割を担っている。
本稿では,HPC機能に特化して量子力学をシミュレーションできるソフトウェアパッケージをいくつかベンチマークする。
我々は、異なる並列化機能を用いて、ローカルHPCクラスタ上で大規模なシミュレーションパッケージをベンチマークするコンテナ化されたツールチェーンを開発し、3つのパラダイム量子コンピューティングタスクのパフォーマンスとシステムサイズを比較検討した。
この結果は,シミュレーションタスクに適したパッケージを見つける上で有効であり,既存および新たに開発されたシミュレーションパッケージの今後のバージョンをベンチマークし,検証するための,体系的なコミュニティ活動の基礎となる。
Rapid advances in quantum computing technology lead to an increasing need for software simulators that enable both algorithm design and the validation of results obtained from quantum hardware. This includes calculations that aim at probing regimes of quantum advantage, where a quantum computer outperforms a classical computer in the same task. High performance computing (HPC) platforms play a crucial role as today's quantum devices already reach beyond the limits of what powerful workstations can model, but a systematic evaluation of the individual performance of the many offered simulation packages is lacking so far. In this Technical Review, we benchmark several software packages capable of simulating quantum dynamics with a special focus on HPC capabilities. We develop a containerized toolchain for benchmarking a large set of simulation packages on a local HPC cluster using different parallelisation capabilities, and compare the performance and system size-scaling for three paradigmatic quantum computing tasks. Our results can help finding the right package for a given simulation task and lay the foundation for a systematic community effort to benchmark and validate upcoming versions of existing and also newly developed simulation packages. | 翻訳日:2024-07-10 02:58:36 公開日:2024-07-06 |
# MoE-LLaVA:大型ビジョンランゲージモデルの専門家の混在
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models ( http://arxiv.org/abs/2401.15947v4 ) ライセンス: Link先を確認 | Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Jinfa Huang, Junwu Zhang, Yatian Pang, Munan Ning, Li Yuan, | (参考訳) 最近の進歩は、LVLM(Large Vision-Language Models)のスケールが、下流タスクのパフォーマンスを効果的に改善することを示している。
しかし、既存のスケーリング手法では、計算において各トークンに対して全てのモデルパラメータをアクティブにすることができるため、膨大なトレーニングと推論コストが生じる。
本研究では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
この戦略は、多モード空間学習における性能劣化の共通問題に革新的に対処し、その結果、不規則な数のパラメータを持つスパースモデルを構築するが、計算コストは一定である。
さらに,MoEをベースとしたスパースLVLMアーキテクチャであるMoE-LLaVAについて述べる。
広範囲にわたる実験は、様々な視覚的理解と物体幻覚のベンチマークにおいて、MoE-LLaVAの顕著な性能を示している。
注目すべきは、約3Bのわずかに活性化されたパラメータだけで、MoE-LLaVAは様々な視覚的理解データセット上でLLaVA-1.5-7Bに匹敵する性能を示し、オブジェクト幻覚ベンチマークではLLaVA-1.5-13Bを超えていることだ。
MoE-LLaVAを通じて、スパースLVLMのベースラインを確立し、より効率的で効果的なマルチモーダル学習システムの開発において、今後の研究に有用な洞察を提供することを目指している。
コードはhttps://github.com/PKU-YuanGroup/MoE-LLaVAで公開されている。
Recent advances demonstrate that scaling Large Vision-Language Models (LVLMs) effectively improves downstream task performances. However, existing scaling methods enable all model parameters to be active for each token in the calculation, which brings massive training and inferring costs. In this work, we propose a simple yet effective training strategy MoE-Tuning for LVLMs. This strategy innovatively addresses the common issue of performance degradation in multi-modal sparsity learning, consequently constructing a sparse model with an outrageous number of parameters but a constant computational cost. Furthermore, we present the MoE-LLaVA, a MoE-based sparse LVLM architecture, which uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Extensive experiments show the significant performance of MoE-LLaVA in a variety of visual understanding and object hallucination benchmarks. Remarkably, with only approximately 3B sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmark. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at https://github.com/PKU-YuanGroup/MoE-LLaVA. | 翻訳日:2024-07-10 02:48:51 公開日:2024-07-06 |
# グラフニューラルネットワークのための PAC-Bayesian Adversarially Robust Generalization bounds
PAC-Bayesian Adversarially Robust Generalization Bounds for Graph Neural Network ( http://arxiv.org/abs/2402.04038v2 ) ライセンス: Link先を確認 | Tan Sun, Junhong Lin, | (参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフ関連タスクで人気を集めている。
しかし、ディープニューラルネットワークと同様に、GNNも敵の攻撃に対して脆弱である。
実証的研究により、敵の攻撃に対する効果的な防御アルゴリズムを確立する上で、敵の堅牢な一般化が重要な役割を担っていることが示されている。
本稿では, PAC-Bayesianフレームワークを用いて, 2種類の人気GNN, グラフ畳み込みネットワーク(GCN), メッセージパッシンググラフニューラルネットワークに対して, 逆向きに堅牢な一般化バウンダリを提供する。
その結果、グラフ上の拡散行列のスペクトルノルムと重みのスペクトルノルムと摂動係数が両モデルの堅牢な一般化境界を支配していることが明らかとなった。
我々の境界は、(Liao et al , 2020) で開発された結果の標準設定から反対設定への非自明な一般化であり、最大ノード次数の指数的依存を回避している。
コーナリーとして、最大ノード次数への指数的依存を回避して(Liao et al , 2020)のバウンダリを改善する標準設定におけるGCNに対するより優れたPAC-Bayesianのロバストな一般化境界を導出する。
Graph neural networks (GNNs) have gained popularity for various graph-related tasks. However, similar to deep neural networks, GNNs are also vulnerable to adversarial attacks. Empirical studies have shown that adversarially robust generalization has a pivotal role in establishing effective defense algorithms against adversarial attacks. In this paper, we contribute by providing adversarially robust generalization bounds for two kinds of popular GNNs, graph convolutional network (GCN) and message passing graph neural network, using the PAC-Bayesian framework. Our result reveals that spectral norm of the diffusion matrix on the graph and spectral norm of the weights as well as the perturbation factor govern the robust generalization bounds of both models. Our bounds are nontrivial generalizations of the results developed in (Liao et al., 2020) from the standard setting to adversarial setting while avoiding exponential dependence of the maximum node degree. As corollaries, we derive better PAC-Bayesian robust generalization bounds for GCN in the standard setting, which improve the bounds in (Liao et al., 2020) by avoiding exponential dependence on the maximum node degree. | 翻訳日:2024-07-10 02:48:51 公開日:2024-07-06 |
# 交差は安全か? : GPT-4Vによる道路横断の安全性評価
Is it safe to cross? Interpretable Risk Assessment with GPT-4V for Safety-Aware Street Crossing ( http://arxiv.org/abs/2402.06794v2 ) ライセンス: Link先を確認 | Hochul Hwang, Sunjae Kwon, Yekyung Kim, Donghyun Kim, | (参考訳) 道路の交差点を安全にナビゲートすることは盲目と低視の個人にとって複雑な課題であり、周囲の状況に関する微妙な理解を必要とする。
この意思決定プロセスを支援する従来の方法はしばしば不足しており、総合的なシーン分析と安全性レベルを提供する能力が欠如している。
本稿では,大規模なマルチモーダルモデル(LMM)を活用して,道路横断シーンの複雑な解釈を行い,従来の交通信号認識技術よりも先進的な手法を提案する。
安全スコアとシーン記述を自然言語で生成することにより,視覚障害者の安全意思決定を支援する。
我々は、四足歩行ロボットが捉えた多視点自我中心の画像を含む横断歩道交差点データを収集し、予め定義された安全スコア分類に基づいて、その画像に対応する安全スコアを付加した。
画像から抽出した視覚的知識とテキストプロンプトに基づいて、安全スコア予測とシーン記述のための大規模なマルチモーダルモデルを評価する。
本研究は,信頼性の高い意思決定支援を必要とするアプリケーションに不可欠な,信頼性の高いシステム開発への道筋として,様々なプロンプトによって起動されるLMMの推論と安全性スコア予測能力を強調した。
Safely navigating street intersections is a complex challenge for blind and low-vision individuals, as it requires a nuanced understanding of the surrounding context - a task heavily reliant on visual cues. Traditional methods for assisting in this decision-making process often fall short, lacking the ability to provide a comprehensive scene analysis and safety level. This paper introduces an innovative approach that leverages large multimodal models (LMMs) to interpret complex street crossing scenes, offering a potential advancement over conventional traffic signal recognition techniques. By generating a safety score and scene description in natural language, our method supports safe decision-making for the blind and low-vision individuals. We collected crosswalk intersection data that contains multiview egocentric images captured by a quadruped robot and annotated the images with corresponding safety scores based on our predefined safety score categorization. Grounded on the visual knowledge, extracted from images, and text prompt, we evaluate a large multimodal model for safety score prediction and scene description. Our findings highlight the reasoning and safety score prediction capabilities of a LMM, activated by various prompts, as a pathway to developing a trustworthy system, crucial for applications requiring reliable decision-making support. | 翻訳日:2024-07-10 02:38:52 公開日:2024-07-06 |
# Pix2Code: プログラムとしてニューラルビジュアル概念を構成することを学ぶ
Pix2Code: Learning to Compose Neural Visual Concepts as Programs ( http://arxiv.org/abs/2402.08280v2 ) ライセンス: Link先を確認 | Antonia Wüst, Wolfgang Stammer, Quentin Delfosse, Devendra Singh Dhami, Kristian Kersting, | (参考訳) 教師なしの方法で画像から抽象概念を学ぶことの課題は、視覚知覚と一般化可能な関係推論の必要な統合にある。
さらに、このタスクの教師なしの性質は、人間のユーザーがモデルの学習された概念を理解し、潜在的に誤った振る舞いを修正できるようにする必要がある。
視覚概念学習における一般化可能性と解釈可能性の制約に対処するため,明示的,構成的記号的,暗黙的両方のニューラル表現の能力を利用して,プログラム合成を視覚的リレーショナル推論に拡張するフレームワークPix2Codeを提案する。
これは、画像からオブジェクト表現を取得し、ラムダ計算プログラムとしてリレーショナル概念を合成することで達成される。
Pix2Codeの多様な特性を、難解な推論領域であるKandinsky PatternsとCURIに基づいて評価し、新しいデータや概念構成に一般化する合成視覚概念を識別する能力をテストする。
特に、ニューラルアプローチとは対照的に、Pix2Codeの表現が人間の解釈可能であり、性能改善のために容易に修正可能であることを示す。
The challenge in learning abstract concepts from images in an unsupervised fashion lies in the required integration of visual perception and generalizable relational reasoning. Moreover, the unsupervised nature of this task makes it necessary for human users to be able to understand a model's learnt concepts and potentially revise false behaviours. To tackle both the generalizability and interpretability constraints of visual concept learning, we propose Pix2Code, a framework that extends program synthesis to visual relational reasoning by utilizing the abilities of both explicit, compositional symbolic and implicit neural representations. This is achieved by retrieving object representations from images and synthesizing relational concepts as lambda-calculus programs. We evaluate the diverse properties of Pix2Code on the challenging reasoning domains, Kandinsky Patterns and CURI, thereby testing its ability to identify compositional visual concepts that generalize to novel data and concept configurations. Particularly, in stark contrast to neural approaches, we show that Pix2Code's representations remain human interpretable and can be easily revised for improved performance. | 翻訳日:2024-07-10 02:38:52 公開日:2024-07-06 |
# デモから学ぶ運動原始者のための条件付きニューラルエキスパートプロセス
Conditional Neural Expert Processes for Learning Movement Primitives from Demonstration ( http://arxiv.org/abs/2402.08424v2 ) ライセンス: Link先を確認 | Yigit Yildirim, Emre Ugur, | (参考訳) Learning from Demonstration (LfD)は、ロボット工学のスキル獲得に広く使われている技術である。
しかし、同じスキルのデモンストレーションは大きなばらつきを示すかもしれないし、学習システムは同じスキルの異なる手段を同時に獲得しようとするかもしれないため、これらの動きを運動プリミティブにエンコードすることは困難である。
これらの課題に対処するために、LfDフレームワーク、すなわち条件付きニューラルネットワーク(CNEP)を提案する。このフレームワークは、符号化された表現と専門家を一致させるために、潜時空間内の固有情報を利用して、異なるモードから異なる専門家ネットワークにデモンストレーションを割り当てることを学ぶ。
CNEPは、軌道がどのモードに属するかの監督を必要としない。
我々は,CNEPの性能をガウス混合モデル,確率運動プリミティブ,安定運動プリミティブなどの広範で強力なLfD手法と比較し,これらのベースラインをマルチモーダルトラジェクトリデータセットで上回ることを示す。
その結果,運動プリミティブのモデリング性能が向上し,特に各種軌道の交叉点を含む技術実演において,専門家が証明したものをより正確に反映した軌跡の合成が可能となった。
我々は,障害物回避タスクとピック・アンド・プレイスタスクの2つの実ロボットタスクにおけるCNEPモデルの評価を行った。
また,本システムでは,オンラインコンディショニング機構を用いて環境変化をオンザフライで適応できることを示した。
最後に、CNEPは、個別の行動プリミティブを自律的に発見し、専門家の選択決定に関する確率値を提供することにより、説明可能性と解釈可能性を改善していると信じている。
Learning from Demonstration (LfD) is a widely used technique for skill acquisition in robotics. However, demonstrations of the same skill may exhibit significant variances, or learning systems may attempt to acquire different means of the same skill simultaneously, making it challenging to encode these motions into movement primitives. To address these challenges, we propose an LfD framework, namely the Conditional Neural Expert Processes (CNEP), that learns to assign demonstrations from different modes to distinct expert networks utilizing the inherent information within the latent space to match experts with the encoded representations. CNEP does not require supervision on which mode the trajectories belong to. We compare the performance of CNEP against widely used and powerful LfD methods such as Gaussian Mixture Models, Probabilistic Movement Primitives, and Stable Movement Primitives and show that our method outperforms these baselines on multimodal trajectory datasets. The results reveal enhanced modeling performance for movement primitives, leading to the synthesis of trajectories that more accurately reflect those demonstrated by experts, particularly when the skill demonstrations include intersection points from various trajectories. We evaluated the CNEP model on two real-robot tasks, namely obstacle avoidance and pick-and-place tasks, that require the robot to learn multi-modal motion trajectories and execute the correct primitives given target environment conditions. We also showed that our system is capable of on-the-fly adaptation to environmental changes via an online conditioning mechanism. Lastly, we believe that CNEP offers improved explainability and interpretability by autonomously finding discrete behavior primitives and providing probability values about its expert selection decisions. | 翻訳日:2024-07-10 02:38:52 公開日:2024-07-06 |
# 大規模言語モデルの文化的アライメントの検討
Investigating Cultural Alignment of Large Language Models ( http://arxiv.org/abs/2402.13231v2 ) ライセンス: Link先を確認 | Badr AlKhamissi, Muhammad ElNokrashy, Mai AlKhamissi, Mona Diab, | (参考訳) 言語と文化の複雑な関係は、長い間、言語人類学の領域における探索の対象であった。
大規模言語モデル(LLM)は、人的知識のリポジトリとして推進され、重要な疑問を提起する。
調査の結果、これらのモデルは2つの次元に沿って大きな文化的アライメントを示すことが判明した。まず、特定の文化の優越的な言語で刺激されたとき、そして次に、その文化で使われる言語で事前訓練されたとき。
社会学的調査をシミュレートし、実際の調査参加者のモデル応答を参考として、文化的アライメントの定量化を行う。
具体的には、エジプトとアメリカの各地域で行われた調査を、アラビア語と英語の双方で異なる事前学習データの組み合わせによるLCMと、実際の回答者のペルソナ、および調査質問を再現する。
さらに分析した結果,社会的価値を追求する人格や文化的にセンシティブなトピックに対して,不一致がより顕著になることが明らかとなった。
最後に,人類学的推論を活用し,文化的アライメントを高める新しい手法である人類学的プロンプティングを紹介する。
本研究は、多言語事前学習データセットの必要性を強調し、多言語間移動のトピックに多くの意味を持つ、人間の経験と複数の異なる文化の多様性をよりよく表すものである。
The intricate relationship between language and culture has long been a subject of exploration within the realm of linguistic anthropology. Large Language Models (LLMs), promoted as repositories of collective human knowledge, raise a pivotal question: do these models genuinely encapsulate the diverse knowledge adopted by different cultures? Our study reveals that these models demonstrate greater cultural alignment along two dimensions -- firstly, when prompted with the dominant language of a specific culture, and secondly, when pretrained with a refined mixture of languages employed by that culture. We quantify cultural alignment by simulating sociological surveys, comparing model responses to those of actual survey participants as references. Specifically, we replicate a survey conducted in various regions of Egypt and the United States through prompting LLMs with different pretraining data mixtures in both Arabic and English with the personas of the real respondents and the survey questions. Further analysis reveals that misalignment becomes more pronounced for underrepresented personas and for culturally sensitive topics, such as those probing social values. Finally, we introduce Anthropological Prompting, a novel method leveraging anthropological reasoning to enhance cultural alignment. Our study emphasizes the necessity for a more balanced multilingual pretraining dataset to better represent the diversity of human experience and the plurality of different cultures with many implications on the topic of cross-lingual transfer. | 翻訳日:2024-07-10 02:38:52 公開日:2024-07-06 |
# Clifford-Steerable Convolutional Neural Networks
Clifford-Steerable Convolutional Neural Networks ( http://arxiv.org/abs/2402.14730v3 ) ライセンス: Link先を確認 | Maksim Zhdanov, David Ruhe, Maurice Weiler, Ana Lucic, Johannes Brandstetter, Patrick Forré, | (参考訳) Clifford-Steerable Convolutional Neural Networks (CS-CNNs) は$\mathrm{E}(p, q)$-equivariant CNNの新しいクラスである。
CS-CNN は擬ユークリッド空間 $\mathbb{R}^{p,q}$ 上の乗ベクトル場を処理する。
例えば、$\mathrm{E}(3)$-equivariance on $\mathbb{R}^3$ と Poincar\'e-equivariance on Minkowski spacetime $\mathbb{R}^{1,3}$ をカバーしている。
我々のアプローチはクリフォード群同変ニューラルネットワークによる$\mathrm{O}(p,q)$-steerable kernelの暗黙のパラメトリゼーションに基づいている。
我々は流体力学のベースライン法と相対論的電磁力学予測タスクを著しく、一貫して上回っている。
We present Clifford-Steerable Convolutional Neural Networks (CS-CNNs), a novel class of $\mathrm{E}(p, q)$-equivariant CNNs. CS-CNNs process multivector fields on pseudo-Euclidean spaces $\mathbb{R}^{p,q}$. They cover, for instance, $\mathrm{E}(3)$-equivariance on $\mathbb{R}^3$ and Poincar\'e-equivariance on Minkowski spacetime $\mathbb{R}^{1,3}$. Our approach is based on an implicit parametrization of $\mathrm{O}(p,q)$-steerable kernels via Clifford group equivariant neural networks. We significantly and consistently outperform baseline methods on fluid dynamics as well as relativistic electrodynamics forecasting tasks. | 翻訳日:2024-07-10 02:38:52 公開日:2024-07-06 |
# ターゲットマーケティングにおける帯域利益の最大化
Bandit Profit-maximization for Targeted Marketing ( http://arxiv.org/abs/2403.01361v2 ) ライセンス: Link先を確認 | Joon Suk Huh, Ellen Vitercik, Kirthevasan Kandasamy, | (参考訳) 我々は、マーケティング支出のような価格変数と補助変数の両方を最適化し、逐次利益最大化問題を研究する。
具体的には、複数の需要曲線の任意の列に対して利益を最大化することを目的としており、それぞれが異なるアシラリー変数に依存するが、同じ価格を共有する。
原型的な例としてターゲットマーケティングがあり、企業(販売業者)は製品を複数の市場で販売したいと願っている。
同社は、顧客獲得を最適化するために異なる市場向けに異なるマーケティング支出を投資する可能性があるが、すべての市場において同じ価格を維持する必要がある。
さらに、市場は不均一な需要曲線を持ち、それぞれが価格やマーケティング支出が異なる。
同社の目標は利益を最大化し、総収益はマーケティングコストを抑えることである。
本研究は,需要曲線が任意の非適応列である対向的帯域設定において,このような問題に対する準最適アルゴリズムであり,需要曲線上の選択点のノイズ評価のみを観測する。
n$需要曲線(市場)については、単調な需要曲線に対して$\tilde{O}(nT^{3/4})$と$\Omega((nT)^{3/4})$と、単調な需要曲線に対して$\tilde{\Theta}(nT^{2/3})$の後悔上限を、単調な価格で単調な需要曲線に対して$とする。
We study a sequential profit-maximization problem, optimizing for both price and ancillary variables like marketing expenditures. Specifically, we aim to maximize profit over an arbitrary sequence of multiple demand curves, each dependent on a distinct ancillary variable, but sharing the same price. A prototypical example is targeted marketing, where a firm (seller) wishes to sell a product over multiple markets. The firm may invest different marketing expenditures for different markets to optimize customer acquisition, but must maintain the same price across all markets. Moreover, markets may have heterogeneous demand curves, each responding to prices and marketing expenditures differently. The firm's objective is to maximize its gross profit, the total revenue minus marketing costs. Our results are near-optimal algorithms for this class of problems in an adversarial bandit setting, where demand curves are arbitrary non-adaptive sequences, and the firm observes only noisy evaluations of chosen points on the demand curves. For $n$ demand curves (markets), we prove a regret upper bound of $\tilde{O}(nT^{3/4})$ and a lower bound of $\Omega((nT)^{3/4})$ for monotonic demand curves, and a regret bound of $\tilde{\Theta}(nT^{2/3})$ for demands curves that are monotonic in price and concave in the ancillary variables. | 翻訳日:2024-07-10 02:29:06 公開日:2024-07-06 |
# SDPL:UAV-Viewジオローカライゼーションのためのシフト-ディエンス分割学習
SDPL: Shifting-Dense Partition Learning for UAV-View Geo-Localization ( http://arxiv.org/abs/2403.04172v2 ) ライセンス: Link先を確認 | Quan Chen, Tingyu Wang, Zihao Yang, Haoran Li, Rongfeng Lu, Yaoqi Sun, Bolun Zheng, Chenggang Yan, | (参考訳) クロスビューのジオローカライゼーションは、例えばドローンや衛星など、さまざまなプラットフォームから同じターゲットの画像とマッチングすることを目的としている。
異なる視点から目標や環境コンテンツが変化するため、これは困難な課題である。
ほとんどの方法は特徴マップのセグメンテーションを通じてより包括的な情報を得るのに重点を置いており、必然的に画像構造を破壊し、クエリにおけるターゲットのシフトとスケールに敏感である。
上記の課題に対処するために、単純だが効果的な部分ベース表現学習(SDPL)を導入する。
本研究では,大域構造を明示的に維持しつつ,画像を複数の部分に分割し,文脈情報を探索する高密度分割戦略(DPS)を提案する。
そこで本研究では,様々なセグメンテーションセンタに基づいて複数の部品を並列に生成し,全ての機能を融合させて,その反オフセット能力を統合するシフト・フュージョン・ストラテジーを提案する。
大規模な実験の結果、SDPLは位置シフトに頑健であり、University-1652とSUES-200という2つの主要なベンチマークで反復的に動作することがわかった。
さらにSDPLは,バックボーンネットワーク(ResNetやSwinなど)との互換性も良好です。
https://github.com/C-water/SDPL リリース。
Cross-view geo-localization aims to match images of the same target from different platforms, e.g., drone and satellite. It is a challenging task due to the changing appearance of targets and environmental content from different views. Most methods focus on obtaining more comprehensive information through feature map segmentation, while inevitably destroying the image structure, and are sensitive to the shifting and scale of the target in the query. To address the above issues, we introduce simple yet effective part-based representation learning, shifting-dense partition learning (SDPL). We propose a dense partition strategy (DPS), dividing the image into multiple parts to explore contextual information while explicitly maintaining the global structure. To handle scenarios with non-centered targets, we further propose the shifting-fusion strategy, which generates multiple sets of parts in parallel based on various segmentation centers, and then adaptively fuses all features to integrate their anti-offset ability. Extensive experiments show that SDPL is robust to position shifting, and performs com-petitively on two prevailing benchmarks, University-1652 and SUES-200. In addition, SDPL shows satisfactory compatibility with a variety of backbone networks (e.g., ResNet and Swin). https://github.com/C-water/SDPL release. | 翻訳日:2024-07-10 02:29:06 公開日:2024-07-06 |
# ビデオオブジェクトセグメンテーション参照のための事前学習型テキスト・ビデオ拡散モデルの検討
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation ( http://arxiv.org/abs/2403.12042v2 ) ライセンス: Link先を確認 | Zixin Zhu, Xuelu Feng, Dongdong Chen, Junsong Yuan, Chunming Qiao, Gang Hua, | (参考訳) 本稿では,ビデオ理解タスクのための事前学習されたテキスト・ツー・ビデオ(T2V)拡散モデルから生成された視覚表現について検討する。
我々は、事前訓練された生成的T2Vモデルから学習した潜在表現が、豊かな意味論と一貫性のある時間的対応をカプセル化し、ビデオ理解を自然に促進する、という仮説を立てる。
我々の仮説は古典的参照ビデオオブジェクトセグメンテーション(R-VOS)タスクによって検証される。
固定事前学習型T2Vモデル上に構築された専用コンポーネントを組み込んだ,"VD-IT"と呼ばれる新しいフレームワークを導入する。
具体的には、VD-ITはテキスト情報を条件入力として使用し、正確な時間的インスタンスマッチングのための時間間のセマンティック一貫性を保証する。
さらに、画像トークンを補足的なテキスト入力として組み込んで、詳細かつニュアンスのあるマスクを生成する機能セットを強化している。
また,標準のガウスノイズの代わりに,特徴の忠実さを保ち,セグメンテーション品質を高めるために,余分なノイズ予測モジュールを用いて映像特有のノイズを予測することを提案する。
広範にわたる実験により,ビデオバックボーン(例えばビデオスウィントランスフォーマー)に画像・ビデオ前タスクを事前訓練した固定型T2V拡散モデルが,意味的アライメントと時間的整合性を維持する可能性が示唆された。
既存の標準ベンチマークでは、我々のVD-ITは、多くの最先端の手法を超越して、非常に競争力のある結果を得る。
コードはhttps://github.com/buxiangzhiren/VD-ITで入手できる。
In this paper, we explore the visual representations produced from a pre-trained text-to-video (T2V) diffusion model for video understanding tasks. We hypothesize that the latent representation learned from a pretrained generative T2V model encapsulates rich semantics and coherent temporal correspondences, thereby naturally facilitating video understanding. Our hypothesis is validated through the classic referring video object segmentation (R-VOS) task. We introduce a novel framework, termed "VD-IT", tailored with dedicatedly designed components built upon a fixed pretrained T2V model. Specifically, VD-IT uses textual information as a conditional input, ensuring semantic consistency across time for precise temporal instance matching. It further incorporates image tokens as supplementary textual inputs, enriching the feature set to generate detailed and nuanced masks. Besides, instead of using the standard Gaussian noise, we propose to predict the video-specific noise with an extra noise prediction module, which can help preserve the feature fidelity and elevates segmentation quality. Through extensive experiments, we surprisingly observe that fixed generative T2V diffusion models, unlike commonly used video backbones (e.g., Video Swin Transformer) pretrained with discriminative image/video pre-tasks, exhibit better potential to maintain semantic alignment and temporal consistency. On existing standard benchmarks, our VD-IT achieves highly competitive results, surpassing many existing state-of-the-art methods. The code is available at https://github.com/buxiangzhiren/VD-IT. | 翻訳日:2024-07-10 02:09:29 公開日:2024-07-06 |
# マルチタスクによるオープンソースのLCMのソフトウェア脆弱性評価
Multitask-based Evaluation of Open-Source LLM on Software Vulnerability ( http://arxiv.org/abs/2404.02056v3 ) ライセンス: Link先を確認 | Xin Yin, Chao Ni, Shaohua Wang, | (参考訳) 本稿では,公開データセットを用いて対話型大規模言語モデル(LLM)を定量的に評価するためのパイプラインを提案する。
我々は,4つの共通ソフトウェア脆弱性タスクをカバーするBig-Vulを用いて,LLMの広範な技術的評価を行う。
本評価では,LLMのマルチタスク能力を評価する。
既存の最先端のアプローチと事前訓練された言語モデル(LM)は、ソフトウェア脆弱性検出において、LLMよりも一般的に優れていることがわかった。
しかし、ソフトウェア脆弱性の評価と位置において、一部のLLM(例えばCodeLlamaやWizardCoder)は、事前訓練されたLMよりも優れた性能を示し、よりコンテキスト情報を提供することで、LLMの脆弱性評価能力を高めることができる。
さらに、LSMは強力な脆弱性記述能力を示すが、過剰な出力を生成する傾向は、事前訓練されたLMと比較して性能を著しく低下させる。
全体として、LLMはいくつかの面でうまく機能するが、コード脆弱性の微妙な違いと、その潜在的な可能性を十分に実現するための脆弱性を記述する能力を理解するためには、依然として改善が必要である。
私たちの評価パイプラインは、ソフトウェア脆弱性の処理におけるLLMの機能に関する貴重な洞察を提供します。
This paper proposes a pipeline for quantitatively evaluating interactive Large Language Models (LLMs) using publicly available datasets. We carry out an extensive technical evaluation of LLMs using Big-Vul covering four different common software vulnerability tasks. This evaluation assesses the multi-tasking capabilities of LLMs based on this dataset. We find that the existing state-of-the-art approaches and pre-trained Language Models (LMs) are generally superior to LLMs in software vulnerability detection. However, in software vulnerability assessment and location, certain LLMs (e.g., CodeLlama and WizardCoder) have demonstrated superior performance compared to pre-trained LMs, and providing more contextual information can enhance the vulnerability assessment capabilities of LLMs. Moreover, LLMs exhibit strong vulnerability description capabilities, but their tendency to produce excessive output significantly weakens their performance compared to pre-trained LMs. Overall, though LLMs perform well in some aspects, they still need improvement in understanding the subtle differences in code vulnerabilities and the ability to describe vulnerabilities to fully realize their potential. Our evaluation pipeline provides valuable insights into the capabilities of LLMs in handling software vulnerabilities. | 翻訳日:2024-07-10 01:59:35 公開日:2024-07-06 |
# スパースランダムハイパーグラフにおける大規模独立集合の低次元硬さ
The Low-Degree Hardness of Finding Large Independent Sets in Sparse Random Hypergraphs ( http://arxiv.org/abs/2404.03842v2 ) ライセンス: Link先を確認 | Abhishek Dhawan, Yuzhou Wang, | (参考訳) 平均次数$d$の頂点上のエルドス=レーニ$r$ユニフォームハイパーグラフにおいて、大きな独立集合を求めるアルゴリズム的タスクについて検討する。
クリヴェレヴィチとスダコフは、最大独立集合は密度$\left(\frac{r\log d}{(r-1)d}\right)^{1/(r-1)}$であることを示した。
低次多項式アルゴリズムのクラスは、$\left(\frac{\log d}{(r-1)d}\right)^{1/(r-1)}$の独立した密度集合を見つけることができるが、それ以上は見つからない。
これはガマルニクとスーダン、ラーマンとヴィラグ、ワインのグラフに関する初期の結果を拡張し、一般化し、バルとベネットの質問に答える。
この統計計算のギャップがこの問題を補うと推測する。
さらに、このギャップの普遍性を$r$パーティイトハイパーグラフで調べる。
ハイパーグラフ $H=(V,E)$ が $r$-partite であるとき、分割 $V=V_1\cup\cdots\cup V_r$ が存在して、各エッジは各集合 $V_i$ からちょうど1つの頂点を含む。
各分割に$n$の頂点と平均次数$d$のランダムな$r$-partiteハイパーグラフにおいて、大きなバランスの取れた独立集合(各分割に同じ頂点数を含む独立集合)を見つけるという問題を考える。
最大平衡独立集合は密度$\left(\frac{r\log d}{(r-1)d}\right)^{1/(r-1)} を漸近的に持つことを証明している。
さらに、類似の低次計算しきい値が$\left(\frac{\log d}{(r-1)d}\right)^{1/(r-1)}$であることを証明する。
我々の結果は、パーキンスと二部グラフに関する2番目の著者の最近の業績を回復し、一般化する。
グラフケースは広く研究されているが、この研究はランダムなハイパーグラフ上の最適化問題の統計的-計算的ギャップを考える最初のものである。
以上の結果から,これらのギャップは,多くのモデルにまたがるより大きな均一性に対して持続することが示唆された。
バランスの取れた独立集合のギャップの幾分驚くべき側面は、下界を達成するアルゴリズムが単純な次数 1 多項式であることである。
We study the algorithmic task of finding large independent sets in Erdos-Renyi $r$-uniform hypergraphs on $n$ vertices having average degree $d$. Krivelevich and Sudakov showed that the maximum independent set has density $\left(\frac{r\log d}{(r-1)d}\right)^{1/(r-1)}$. We show that the class of low-degree polynomial algorithms can find independent sets of density $\left(\frac{\log d}{(r-1)d}\right)^{1/(r-1)}$ but no larger. This extends and generalizes earlier results of Gamarnik and Sudan, Rahman and Virag, and Wein on graphs, and answers a question of Bal and Bennett. We conjecture that this statistical-computational gap holds for this problem. Additionally, we explore the universality of this gap by examining $r$-partite hypergraphs. A hypergraph $H=(V,E)$ is $r$-partite if there is a partition $V=V_1\cup\cdots\cup V_r$ such that each edge contains exactly one vertex from each set $V_i$. We consider the problem of finding large balanced independent sets (independent sets containing the same number of vertices in each partition) in random $r$-partite hypergraphs with $n$ vertices in each partition and average degree $d$. We prove that the maximum balanced independent set has density $\left(\frac{r\log d}{(r-1)d}\right)^{1/(r-1)}$ asymptotically. Furthermore, we prove an analogous low-degree computational threshold of $\left(\frac{\log d}{(r-1)d}\right)^{1/(r-1)}$. Our results recover and generalize recent work of Perkins and the second author on bipartite graphs. While the graph case has been extensively studied, this work is the first to consider statistical-computational gaps of optimization problems on random hypergraphs. Our results suggest that these gaps persist for larger uniformities as well as across many models. A somewhat surprising aspect of the gap for balanced independent sets is that the algorithm achieving the lower bound is a simple degree-1 polynomial. | 翻訳日:2024-07-10 01:59:35 公開日:2024-07-06 |
# 局所拡散を用いた画像翻訳における構造的幻覚への対処
Tackling Structural Hallucination in Image Translation with Local Diffusion ( http://arxiv.org/abs/2404.05980v4 ) ライセンス: Link先を確認 | Seunghoi Kim, Chen Jin, Tom Diethe, Matteo Figini, Henry F. J. Tregidgo, Asher Mullokandov, Philip Teare, Daniel C. Alexander, | (参考訳) 拡散モデルにおける最近の進展は、条件付き画像の生成が進んでいるが、医療画像の未確認腫瘍などのアウト・オブ・ディストリビューション(OOD)画像の再構成に苦慮し、「イメージ幻覚」を引き起こし、誤診断のリスクを負っている。
このような幻覚は条件画像中の局所的なOOD領域から生じると仮定する。
我々は、OOD領域を分割し、別々の画像生成を行うことで幻覚を軽減できることを検証する。
そこで本研究では,複数の局所拡散プロセスによる幻覚を緩和する学習自由拡散フレームワークを提案する。
アプローチでは,OOD領域内と外部の両方でローカルに生成する"ブランチ"モジュールと,これらの予測をひとつのモジュールに統合する"フュージョン"モジュールという,2つのモジュールが続く。
本手法は, 実世界の医療・自然画像データセットの40%, 25%の誤診を減らし, ベースラインモデルに対する幻覚を定量的に, 質的に緩和するものである。
また、様々な事前訓練された拡散モデルとの互換性を示す。
Recent developments in diffusion models have advanced conditioned image generation, yet they struggle with reconstructing out-of-distribution (OOD) images, such as unseen tumors in medical images, causing "image hallucination" and risking misdiagnosis. We hypothesize such hallucinations result from local OOD regions in the conditional images. We verify that partitioning the OOD region and conducting separate image generations alleviates hallucinations in several applications. From this, we propose a training-free diffusion framework that reduces hallucination with multiple Local Diffusion processes. Our approach involves OOD estimation followed by two modules: a "branching" module generates locally both within and outside OOD regions, and a "fusion" module integrates these predictions into one. Our evaluation shows our method mitigates hallucination over baseline models quantitatively and qualitatively, reducing misdiagnosis by 40% and 25% in the real-world medical and natural image datasets, respectively. It also demonstrates compatibility with various pre-trained diffusion models. | 翻訳日:2024-07-10 01:59:35 公開日:2024-07-06 |
# 真の可能性を探る:大規模言語モデルのブラックボックス最適化能力の評価
Exploring the True Potential: Evaluating the Black-box Optimization Capability of Large Language Models ( http://arxiv.org/abs/2404.06290v2 ) ライセンス: Link先を確認 | Beichen Huang, Xingyu Wu, Yu Zhou, Jibin Wu, Liang Feng, Ran Cheng, Kay Chen Tan, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理タスクだけでなく、多種多様な非言語領域でも例外的な性能を示している。
多様な最適化シナリオでは、LLMを適用する傾向も高まっている。
しかし、ブラックボックス最適化問題へのLLMの適用が真に有益であるかどうかは未定である。
本稿では, LLMがこの分野にもたらす有効性や特徴を評価するために, 離散的および連続的な最適化問題の両方を網羅した総合的な調査を通じて, LLMの最適化の可能性について深い知見を提供する。
本研究は,LLMの最適化における限界と利点を明らかにした。
特に、モデルを実行するために消費される大きな電力にもかかわらず、LLMは、主に問題領域と処理能力のミスマッチのため、純粋に数値的なタスクにおいてサブパーパフォーマンスを示す。一方、LLMは従来の数値最適化には適さないかもしれないが、より広い最適化コンテキストにおけるそれらのポテンシャルは有望であり、LLMは非数値的領域の問題を解く能力を示し、その性能を向上させるためにヒューリスティックスを活用することができる。
我々の知る限り、この研究は数値最適化のための LLM を初めて体系的に評価するものである。
本研究は,LLMの最適化における役割についてより深く理解し,幅広いシナリオにおけるLLMの今後の応用を導くための道を開くものである。
Large language models (LLMs) have demonstrated exceptional performance not only in natural language processing tasks but also in a great variety of non-linguistic domains. In diverse optimization scenarios, there is also a rising trend of applying LLMs. However, whether the application of LLMs in the black-box optimization problems is genuinely beneficial remains unexplored. This paper endeavors to offer deep insights into the potential of LLMs in optimization through a comprehensive investigation, which covers both discrete and continuous optimization problems to assess the efficacy and distinctive characteristics that LLMs bring to this field. Our findings reveal both the limitations and advantages of LLMs in optimization. Specifically, on the one hand, despite the significant power consumed for running the models, LLMs exhibit subpar performance in pure numerical tasks, primarily due to a mismatch between the problem domain and their processing capabilities; on the other hand, although LLMs may not be ideal for traditional numerical optimization, their potential in broader optimization contexts remains promising, where LLMs exhibit the ability to solve problems in non-numerical domains and can leverage heuristics from the prompt to enhance their performance. To the best of our knowledge, this work presents the first systematic evaluation of LLMs for numerical optimization. Our findings pave the way for a deeper understanding of LLMs' role in optimization and guide future application of LLMs in a wide range of scenarios. | 翻訳日:2024-07-10 01:59:35 公開日:2024-07-06 |
# 適応的思考を伴う大規模言語モデルからの蒸留推論能力
Distilling Reasoning Ability from Large Language Models with Adaptive Thinking ( http://arxiv.org/abs/2404.09170v3 ) ライセンス: Link先を確認 | Xiaoshu Chen, Sihang Zhou, Ke Liang, Xinwang Liu, | (参考訳) 思考微調整の連鎖 (cot-finetuning) は、単に答えを予測するだけでなく、大きな言語モデル(LLM)の推論手順を模倣することで、特定のタスクに対してパフォーマンスを改善する推論能力を持つ小さな言語モデル (SLM) を育むことを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
そこで本稿では,理性よりも先に回答を生成するための頑健なポスト思考機構を提案する。
この回答ファースト設定のおかげです。
1) 答は,理性上のミスによる悪影響から逃れることができる。
2 理性は、答の誤り増幅器として機能し、SLM は、ハードサンプルの学習に重点を置いている。
3)推論効率は、推論を行う際に回答が出力された直後に、ユーザが生成を停止できるので、設定の恩恵を受けることができる。
しかし、ポスト思考メカニズムは多くの利点をもたらし、特定のタスクにおけるSLMの全体的な性能を向上させるが、質問について考え、複雑な質問を事前思考メカニズムと比較して単純なサブクエストに分解する能力を失う可能性がある。
そこで,事前思考機構と後思考機構の利点を統合するためのソフト・プロンプト・チューニングによるプラグアンドプレイ適応思考機構を提案する。
提案手法の有効性を実証するため,12の推論課題と2つの代表言語モデルに対して大規模な実験を行った。
Chain of thought finetuning (cot-finetuning) aims to endow small language models (SLM) with reasoning ability to improve their performance towards specific tasks by allowing them to imitate the reasoning procedure of large language models (LLM) beyond simply predicting the answers. Most existing cot-finetuning methods adopt a pre-thinking mechanism, allowing the SLM to generate a rationale before providing an answer. This mechanism enables SLM to analyze and think about complex questions, but it also makes answer correctness highly sensitive to minor errors in rationale. Therefore, we propose a robust post-thinking mechanism to generate answers before rationale. Thanks to this answer-first setting, 1) the answer can escape from the adverse effects caused by minor errors in the rationale; 2) the rationale serves as an error amplifier to the answer, which makes the SLM focus on learning hard samples; 3) the inferring efficiency can also benefit from the setting since users can stop the generation right after answers are outputted when inference is conducted. However, although the post-thinking mechanism brings many advantages and improves the overall performance of SLM on specific tasks, it may lose the ability to think about the questions and decompose complex questions into simple sub-questions compared to pre-thinking mechanism. Therefore, a plug-and-play adaptive-thinking mechanism is proposed with the aid of the soft prompt tuning to integrate the merits of the pre-thinking mechanism and post-thinking mechanism, in which a perception module is introduced to adaptively prompt SLM answer or think first based on perceiving the complexity of the questions. Extensive experiments are conducted across 12 reasoning tasks and 2 representative language models to demonstrate the effectiveness of the proposed mechanism. | 翻訳日:2024-07-10 01:59:35 公開日:2024-07-06 |
# 相関脱落チャネルにおける重力猫状態の量子性
Quantumness of gravitational cat states in correlated dephasing channels ( http://arxiv.org/abs/2404.13294v2 ) ライセンス: Link先を確認 | Saeed Haddadi, Mehrdad Ghominejad, Artur Czerwinski, | (参考訳) 本研究では, 負のデファスチャネルにおける重力猫状態の量子性について検討する。
熱状態下での2匹の重力猫(2立方体)の脱コヒーレンスに、相似チャネルの連続的な作用の古典的相関がどのように影響するかを調べることに注力する。
その結果、量子コヒーレンス、局所的な量子フィッシャー情報、ベル非局所性は、2つの量子ビットがチャネルを通過するときの時間を通して古典的相関を増大させることで著しく向上できることが示された。
しかし、状態間の重力相互作用とエネルギーギャップは、重力猫の量子特性に複雑な影響を示す。
重力物理学と量子情報処理の両方に重要な新機能が報告されている。
We study the quantumness of gravitational cat states in correlated dephasing channels. Our focus is on exploring how classical correlations between successive actions of a dephasing channel influence the decoherence of two gravitational cats (two qubits) at a thermal regime. The results show that the quantum coherence, local quantum Fisher information, and Bell non-locality can be significantly enhanced by augmenting classical correlations throughout the entire duration when the two qubits pass the channel. However, the gravitational interaction and energy gap between states exhibit intricate impacts on the quantum characteristics of gravitational cats. New features are reported that can be significant for both gravitational physics and quantum information processing. | 翻訳日:2024-07-10 01:49:35 公開日:2024-07-06 |
# テクスチャ解析を用いた植物画像分類のためのラキュナリティポーリング層
Lacunarity Pooling Layers for Plant Image Classification using Texture Analysis ( http://arxiv.org/abs/2404.16268v2 ) ライセンス: Link先を確認 | Akshatha Mohan, Joshua Peeples, | (参考訳) ポーリング層(例えば、最大値、平均値)は、画素強度および/または特徴値の空間配置で符号化された重要な情報を見渡すことができる。
そこで本研究では,特徴マップの空間的不均一性を,局所窓内における変動性の評価により捉えることを目的とした,新しいラキュナリティプーリング層を提案する。
レイヤは複数のスケールで動作し、ネットワークは階層的な特徴を適応的に学習することができる。
ラキュナリティプーリング層は、任意の人工ニューラルネットワークアーキテクチャにシームレスに統合することができる。
実験により, 複雑な空間パターンを捕捉し, 特徴抽出能力の向上を図った。
提案手法は,特に農業画像解析タスクにおいて,様々な領域において有望である。
この研究は、空間的特徴の表現を豊かにする新しいプーリング層を導入することによって、人工知能ニューラルネットワークアーキテクチャの進化する展望に寄与する。
私たちのコードは公開されています。
Pooling layers (e.g., max and average) may overlook important information encoded in the spatial arrangement of pixel intensity and/or feature values. We propose a novel lacunarity pooling layer that aims to capture the spatial heterogeneity of the feature maps by evaluating the variability within local windows. The layer operates at multiple scales, allowing the network to adaptively learn hierarchical features. The lacunarity pooling layer can be seamlessly integrated into any artificial neural network architecture. Experimental results demonstrate the layer's effectiveness in capturing intricate spatial patterns, leading to improved feature extraction capabilities. The proposed approach holds promise in various domains, especially in agricultural image analysis tasks. This work contributes to the evolving landscape of artificial neural network architectures by introducing a novel pooling layer that enriches the representation of spatial features. Our code is publicly available. | 翻訳日:2024-07-10 01:49:35 公開日:2024-07-06 |
# 医療自動化の推進:医療ニーズの正当化のためのマルチエージェントシステム
Advancing Healthcare Automation: Multi-Agent System for Medical Necessity Justification ( http://arxiv.org/abs/2404.17977v2 ) ライセンス: Link先を確認 | Himanshu Pandey, Akhil Amod, Shivang, | (参考訳) 事前認可は、エビデンスベースのガイドラインで医学的に正当化される安全で適切で費用対効果の高いケアを提供する。
しかし、このプロセスは、しばしば、反復的かつ時間を要する患者の医療記録と臨床ガイドラインの労働集約的な手動比較を必要とする。
LLM(Large Language Models)の最近の進歩は、最小限の監督で複雑なNLPタスクに対処する可能性を示している。
本稿では、特殊LLMエージェントを利用したマルチエージェントシステム(MAS)による優先オーソライゼーションタスクの自動化について、よりシンプルで管理しやすいサブタスクに分割して検討する。
本研究は,これらのエージェントに対する各種プロンプト戦略の効果を系統的に検討し,異なるLCMの性能をベンチマークする。
我々は,GPT-4がチェックリスト項目レベルの判断を証拠付きで86.2%,チェックリスト全体の判定が95.6%の精度で達成できることを実証した。
さらに、これらのエージェントがプロセスにおけるステップの説明可能性にどのように貢献するかを検討し、それによってシステムの信頼性と透明性が向上する。
Prior Authorization delivers safe, appropriate, and cost-effective care that is medically justified with evidence-based guidelines. However, the process often requires labor-intensive manual comparisons between patient medical records and clinical guidelines, that is both repetitive and time-consuming. Recent developments in Large Language Models (LLMs) have shown potential in addressing complex medical NLP tasks with minimal supervision. This paper explores the application of Multi-Agent System (MAS) that utilize specialized LLM agents to automate Prior Authorization task by breaking them down into simpler and manageable sub-tasks. Our study systematically investigates the effects of various prompting strategies on these agents and benchmarks the performance of different LLMs. We demonstrate that GPT-4 achieves an accuracy of 86.2% in predicting checklist item-level judgments with evidence, and 95.6% in determining overall checklist judgment. Additionally, we explore how these agents can contribute to explainability of steps taken in the process, thereby enhancing trust and transparency in the system. | 翻訳日:2024-07-10 01:49:35 公開日:2024-07-06 |
# パラメータ化動的論理 - 汎用プログラム仕様と検証のための循環論理フレームワークを目指して
Parameterized Dynamic Logic -- Towards A Cyclic Logical Framework for General Program Specification and Verification ( http://arxiv.org/abs/2404.18098v2 ) ライセンス: Link先を確認 | Yuanrui Zhang, | (参考訳) 動的論理とそのバリエーションは、プログラム特性を捉えるための明確で表現力のある形式のため、プログラム/システム仕様と検証の形式として長年使われてきた。
動的論理のプログラムモデルは明示的な形式である。
異なる対象のプログラムモデルに対して、異なるモデルのセマンティクスを適用するために異なる動的論理理論が提案される必要がある。
本稿では,汎用プログラムモデルの定義と推論のためのパラメータ化'動的論理型'形式,すなわち$DL_p$を提案する。
DL_p$ では、プログラムモデルと論理式は「パラメータ」として扱われ、異なる関心領域に応じて任意の形式が許される。
この特性により、$DL_p$は、構文構造に基づく構成的推論を保持しながら、プログラムモデルの操作的セマンティクスに基づいて直接推論をサポートすることができる。
$DL_p$は、異なる動的論理理論を包含する柔軟な検証フレームワークを提供する。
さらに、セマンティクスが構成的でないプログラムモデル、例えばニューラルネットワーク、オートマタベースのモデル、同期プログラミング言語などについても推論を容易にする。
主に$DL_p$の理論の構築に焦点をあて、構文と意味論を定義し、証明システムを構築し、循環型防食構造を構築する。
我々は$DL_p$の音質を分析し、証明する。
ケーススタディは、$DL_p$が異なるタイプのプログラムモデルについて推論するためにどのように機能するかを示している。
Dynamic logic and its variations, because of their clear and expressive forms for capturing program properties, have been used as formalisms in program/system specification and verification for years and have many other applications. The program models of dynamic logics are in explicit forms. For different target program models, different dynamic logic theories have to be proposed to adapt different models' semantics. In this paper, we propose a parameterized `dynamic-logic-style' formalism, namely $DL_p$, for specifying and reasoning about general program models. In $DL_p$, program models and logical formulas are taken as `parameters', allowing arbitrary forms according to different interested domains. This characteristic allows $DL_p$ to support direct reasoning based on the operational semantics of program models, while still preserving compositional reasoning based on syntactic structures. $DL_p$ provides a flexible verification framework to encompass different dynamic logic theories. In addition, it also facilitates reasoning about program models whose semantics is not compositional, examples are neural networks, automata-based models, synchronous programming languages, etc. We mainly focus on building the theory of $DL_p$, including defining its syntax and semantics, building a proof system and constructing a cyclic preproof structure. We analyze and prove the soundness of $DL_p$. Case studies show how $DL_p$ works for reasoning about different types of program models. | 翻訳日:2024-07-10 01:49:35 公開日:2024-07-06 |
# Visual Mamba: 調査と新たな展望
Visual Mamba: A Survey and New Outlooks ( http://arxiv.org/abs/2404.18861v2 ) ライセンス: Link先を確認 | Rui Xu, Shu Yang, Yihui Wang, Yu Cai, Bo Du, Hao Chen, | (参考訳) 最近の選択的構造化状態空間モデルであるMambaは、大規模なモデル時代において不可欠である長いシーケンスモデリングに優れている。
ロングシークエンスモデリングは、データ内の長距離依存関係をキャプチャし、その広範な長さに起因する計算要求を処理するなど、重要な課題を提起する。
Mambaは、畳み込みニューラルネットワークの局所的な知覚限界とトランスフォーマーの二次計算複雑性を克服することで、これらの課題に対処する。
これらの主流の基盤アーキテクチャに対するアドバンテージを考えれば、Mambaは視覚的な基礎アーキテクチャになる大きな可能性を秘めている。
2024年1月以降、マンバは様々なコンピュータビジョンタスクに積極的に適用され、多くの貢献をしている。
本論文は,急速な進歩に対応するために,200以上の論文を分析し,マンバの視覚的アプローチを概観する。
この論文は、オリジナルのマンバモデルの定式化を記述することから始まる。
その後、代表的なバックボーンネットワークに移行し、画像、ビデオ、ポイントクラウド、マルチモーダルなど、さまざまなモードで分類される。
特に,マンバを視覚タスクに適応させるためには,スキャンテクニックを重要視し,これらのスキャンテクニックを分離して,それらの機能を明確にし,様々なアプリケーションにまたがる柔軟性を高める。
最後に、この急速に発展する領域における新たな展望について、課題と今後の方向性について考察する。
この作業でレビューされた視覚的マンバモデルの包括的なリストはhttps://github.com/Ruixxxx/Awesome-Vision-Mamba-Modelsで見ることができる。
Mamba, a recent selective structured state space model, excels in long sequence modeling, which is vital in the large model era. Long sequence modeling poses significant challenges, including capturing long-range dependencies within the data and handling the computational demands caused by their extensive length. Mamba addresses these challenges by overcoming the local perception limitations of convolutional neural networks and the quadratic computational complexity of Transformers. Given its advantages over these mainstream foundation architectures, Mamba exhibits great potential to be a visual foundation architecture. Since January 2024, Mamba has been actively applied to diverse computer vision tasks, yielding numerous contributions. To help keep pace with the rapid advancements, this paper reviews visual Mamba approaches, analyzing over 200 papers. This paper begins by delineating the formulation of the original Mamba model. Subsequently, it delves into representative backbone networks, and applications categorized using different modalities, including image, video, point cloud, and multi-modal. Particularly, we identify scanning techniques as critical for adapting Mamba to vision tasks, and decouple these scanning techniques to clarify their functionality and enhance their flexibility across various applications. Finally, we discuss the challenges and future directions, providing insights into new outlooks in this fast evolving area. A comprehensive list of visual Mamba models reviewed in this work is available at https://github.com/Ruixxxx/Awesome-Vision-Mamba-Models. | 翻訳日:2024-07-10 01:49:35 公開日:2024-07-06 |
# TwinDiffusion:拡散モデルを用いたパノラマ画像生成におけるコヒーレンスと効率の向上
TwinDiffusion: Enhancing Coherence and Efficiency in Panoramic Image Generation with Diffusion Models ( http://arxiv.org/abs/2404.19475v4 ) ライセンス: Link先を確認 | Teng Zhou, Yongchuan Tang, | (参考訳) 拡散モデルは、多種多様な高品質なコンテンツを生成する効果的なツールとして登場した。
しかし、特にパノラマ画像の高解像度画像生成におけるそれらの能力は、目に見えるシームや不整合遷移といった課題に直面している。
本稿では、品質向上のためのCrop Fusionと効率最適化のためのCross Samplingの2つの主要な革新を通じて、これらの課題に対処するために設計された最適化フレームワークであるTwinDiffusionを提案する。
本研究では,隣接する画像領域の類似性を改善するためのトレーニング不要最適化ステージと,収穫過程中に動的パッチを出力するインターリーブサンプリング戦略を導入する。
整合性,忠実性,適合性,効率性などの要因を考慮し,TwinDiffusionを先行研究と比較するための総合的な評価を行った。
その結果、シームレスでコヒーレントなパノラマ生成における我々のアプローチの優れた性能を示し、パノラマ画像生成のための新しい品質と効率の基準を設定した。
Diffusion models have emerged as effective tools for generating diverse and high-quality content. However, their capability in high-resolution image generation, particularly for panoramic images, still faces challenges such as visible seams and incoherent transitions. In this paper, we propose TwinDiffusion, an optimized framework designed to address these challenges through two key innovations: the Crop Fusion for quality enhancement and the Cross Sampling for efficiency optimization. We introduce a training-free optimizing stage to refine the similarity of adjacent image areas, as well as an interleaving sampling strategy to yield dynamic patches during the cropping process. A comprehensive evaluation is conducted to compare TwinDiffusion with the prior works, considering factors including coherence, fidelity, compatibility, and efficiency. The results demonstrate the superior performance of our approach in generating seamless and coherent panoramas, setting a new standard in quality and efficiency for panoramic image generation. | 翻訳日:2024-07-10 01:49:35 公開日:2024-07-06 |
# 還元密度行列の正確な解に基づく量子ブラウン運動の強結合量子熱力学
The strong-coupling quantum thermodynamics of quantum Brownian motion based on the exact solution of its reduced density matrix ( http://arxiv.org/abs/2405.00277v2 ) ライセンス: Link先を確認 | Chuan-Zhe Yao, Wei-Min Zhang, | (参考訳) 我々は、その還元密度行列の正確な解から、量子ブラウン運動の量子熱力学を導出する。
まず、ブラウン粒子と貯水池の間の全平衡熱状態から始め、すべての貯水池状態に部分的痕跡を取ることにより、系の密度行列を解析的かつ正確に解いた。
私たちが最近開発した開量子系に対する量子熱力学の一般的な非摂動的再正規化理論(Phys. Res. 4, 023141 (2022))に示されているように、ハミルトン運動の減少とブラウン運動の分断関数は著しく再正規化されなければならない。
還元ハミルトニアンは周波数シフトだけでなく、全ての貯水池状態に辿り着いた後にブラウン粒子と貯水池の強い結合から運動量依存電位が自然に生成されるようなペアリング相互作用も含む。
その結果、ブラウン運動の正確な還元密度行列は、スクイーズ熱状態によって与えられる。
さらに、弱結合限界を超えて、ブラウン運動の減少分断関数を正しく得るためには、系-貯水池結合によって誘導される貯水池状態の非無視的な変化を考慮する必要がある。
還元密度行列の正確な解法、還元ハミルトニアンおよび還元ハミルトニアン運動の分解関数を用いて、強結合量子熱力学の以前の研究における内部エネルギーの異なる定義と負の熱容量の問題から得られた議論の結果が解決されたことを示す。
We derive the quantum thermodynamics of quantum Brownian motion from the exact solution of its reduced density matrix. We start from the total equilibrium thermal state between the Brownian particle and its reservoir, and solve analytically and exactly the reduced density matrix of the system by taking the partial trace over all the reservoir states. We find that the reduced Hamiltonian and the reduced partition function of the Brownian motion must be renormalized significantly, as shown in the general nonperturbative renormalization theory of quantum thermodynamics for open quantum systems we developed recently [Phys. Rev. Res. 4, 023141 (2022)]. The reduced Hamiltonian contains not only a frequency shift but also a squeezing pairing interaction, where a momentum-dependent potential is generated naturally from the strong coupling between the Brownian particle and the reservoir, after traced over all the reservoir states. The resulting exact reduced density matrix of the Brownian motion is given by a squeezing thermal state. Moreover, beyond the weak coupling limit, in order to obtain correctly the reduced partition function of the Brownian motion, one must take into account the non-negligible changes of the reservoir state induced by the system-reservoir coupling. Using the exact solutions of the reduced density matrix, the reduced Hamiltonian as well as the reduced partition function of the Brownian motion, we show that the controversial results obtained from the different definitions of internal energy and the issue of the negative heat capacity in the previous studies of strong-coupling quantum thermodynamics are resolved. | 翻訳日:2024-07-10 01:49:35 公開日:2024-07-06 |
# データ依存ランダム特徴に基づく分散カーネルリッジ回帰
Decentralized Kernel Ridge Regression Based on Data-Dependent Random Feature ( http://arxiv.org/abs/2405.07791v2 ) ライセンス: Link先を確認 | Ruikai Yang, Fan He, Mingzhen He, Jie Yang, Xiaolin Huang, | (参考訳) ランダム機能(RF)は、分散カーネルリッジ回帰(KRR)におけるノードの整合性に広く用いられている。
現在、一貫性は特徴係数に制約を課すことで保証されており、異なるノード上のランダムな特徴が同一である必要がある。
しかし、多くのアプリケーションにおいて、異なるノード上のデータは、異なるRFを生成する適応的およびデータ依存の方法を要求する数や分布によって大きく異なる。
そこで本研究では,決定関数に対するコンセンサスを追求する分散KRRアルゴリズムを提案する。
各ノード上のデータの特徴を捉えることで,他の手法と同じ通信コストを維持しながら,6つの実世界のデータセットの平均回帰精度を25.5\%向上させることに成功した。
Random feature (RF) has been widely used for node consistency in decentralized kernel ridge regression (KRR). Currently, the consistency is guaranteed by imposing constraints on coefficients of features, necessitating that the random features on different nodes are identical. However, in many applications, data on different nodes varies significantly on the number or distribution, which calls for adaptive and data-dependent methods that generate different RFs. To tackle the essential difficulty, we propose a new decentralized KRR algorithm that pursues consensus on decision functions, which allows great flexibility and well adapts data on nodes. The convergence is rigorously given and the effectiveness is numerically verified: by capturing the characteristics of the data on each node, while maintaining the same communication costs as other methods, we achieved an average regression accuracy improvement of 25.5\% across six real-world data sets. | 翻訳日:2024-07-10 01:39:50 公開日:2024-07-06 |
# 人間の意図に基づくRGB-DスキャンにおけるIntent3D:3Dオブジェクト検出
Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention ( http://arxiv.org/abs/2405.18295v2 ) ライセンス: Link先を確認 | Weitai Kang, Mengxue Qu, Jyoti Kini, Yunchao Wei, Mubarak Shah, Yan Yan, | (参考訳) 現実のシナリオでは、人間は日常的なニーズや意図を満たすために、3D世界のオブジェクトを探します。
このことから,RGB-Dを用いた3次元物体検出における新たな課題である,「背中を支える何かが欲しい」といった人間の意図に基づく3次元物体検出の導入が示唆された。
近縁な3Dビジュアルグラウンドは、人間の参照を理解することに焦点を当てている。
人間の意図に基づく検出を実現するため、人間にシーンを観察させ、意図に沿ったターゲット(この場合「ピロー」)を推論し、最後に「ソファの枕」のようなAIシステムへの参照を与える。
代わりに、3DインテンショニングはAIエージェントに対して、人間の意図のみに基づいて、望まれるターゲットを自動的に観察し、推論し、検出するように挑戦する。
この課題に対処するために、ScanNetデータセットの1,042シーンから209のきめ細かいクラスに関連付けられた44,990の意図的なテキストからなる新しいIntent3Dデータセットを紹介した。
また、ベンチマークに基づいて、異なる言語ベースの3Dオブジェクト検出モデルに基づいて、いくつかのベースラインを確立する。
最後に、この意図に基づく検出問題に対処するために設計された、我々のユニークなアプローチであるIntentNetを提案する。
それは、意図的理解、オブジェクト候補を特定する推論、および複数の目的最適化のために異なる損失の本質的な優先度論理を活用する適応学習の3つの重要な側面に焦点を当てている。
In real-life scenarios, humans seek out objects in the 3D world to fulfill their daily needs or intentions. This inspires us to introduce 3D intention grounding, a new task in 3D object detection employing RGB-D, based on human intention, such as "I want something to support my back". Closely related, 3D visual grounding focuses on understanding human reference. To achieve detection based on human intention, it relies on humans to observe the scene, reason out the target that aligns with their intention ("pillow" in this case), and finally provide a reference to the AI system, such as "A pillow on the couch". Instead, 3D intention grounding challenges AI agents to automatically observe, reason and detect the desired target solely based on human intention. To tackle this challenge, we introduce the new Intent3D dataset, consisting of 44,990 intention texts associated with 209 fine-grained classes from 1,042 scenes of the ScanNet dataset. We also establish several baselines based on different language-based 3D object detection models on our benchmark. Finally, we propose IntentNet, our unique approach, designed to tackle this intention-based detection problem. It focuses on three key aspects: intention understanding, reasoning to identify object candidates, and cascaded adaptive learning that leverages the intrinsic priority logic of different losses for multiple objective optimization. | 翻訳日:2024-07-10 01:29:45 公開日:2024-07-06 |
# 確率的マルチアーム帯域のストリーミングにおけるメモリ-レグレットトレードオフの理解
Understanding Memory-Regret Trade-Off for Streaming Stochastic Multi-Armed Bandits ( http://arxiv.org/abs/2405.19752v2 ) ライセンス: Link先を確認 | Yuchen He, Zichun Ye, Chihao Zhang, | (参考訳) P$-passストリーミングモデルにおける確率的マルチアームバンディット問題について検討する。
この問題では、$n$armはストリームに存在し、少なくとも$m<n$armはメモリに格納される。
最適後悔を$m, n$および$P$で完全に特徴づける。
具体的には、$\tilde O\left((n-m)^{1+\frac{2^{P}-2}{2^{P+1}-1}} n^{\frac{2-2^{P+1}}{2^{P+1}-1}} T^{\frac{2^P}{2^{P+1}-1}}\right)$ regret を用いてアルゴリズムを設計し、$\tilde \Omega\left((n-m)^{1+\frac{2^{P}-2}{2^{P+1}-1}} n^{\frac{2-2^{P+1}}{2^{P+1}-1}} T^{\frac{2^P}{2^{P+1}-1}}\right)$ rounds$Tが十分に大きい場合の下位境界を補う。
我々の結果は、対数係数が$n$と$P$に固まる。
We study the stochastic multi-armed bandit problem in the $P$-pass streaming model. In this problem, the $n$ arms are present in a stream and at most $m<n$ arms and their statistics can be stored in the memory. We give a complete characterization of the optimal regret in terms of $m, n$ and $P$. Specifically, we design an algorithm with $\tilde O\left((n-m)^{1+\frac{2^{P}-2}{2^{P+1}-1}} n^{\frac{2-2^{P+1}}{2^{P+1}-1}} T^{\frac{2^P}{2^{P+1}-1}}\right)$ regret and complement it with an $\tilde \Omega\left((n-m)^{1+\frac{2^{P}-2}{2^{P+1}-1}} n^{\frac{2-2^{P+1}}{2^{P+1}-1}} T^{\frac{2^P}{2^{P+1}-1}}\right)$ lower bound when the number of rounds $T$ is sufficiently large. Our results are tight up to a logarithmic factor in $n$ and $P$. | 翻訳日:2024-07-10 01:29:45 公開日:2024-07-06 |
# ベル計測支援による混合状態の絡み合いの直接推定
Directly Estimating Mixed-State Entanglement with Bell Measurement Assistance ( http://arxiv.org/abs/2405.20696v2 ) ライセンス: Link先を確認 | Gong-Chu Li, Lei Chen, Si-Qi Zhang, Xu-Song Hong, You Zhou, Geng Chen, Chuan-Feng Li, Guang-Can Guo, | (参考訳) 絡み合いは量子物理学と情報処理において基本的な役割を果たす。
本稿では,数ショットシナリオにおける混合状態絡み合いの非バイアス推定器を開発し,フォトニックシステムにおけるランダムなユニタリ進化を用いて直接推定する。
従来の射影測度を補うため,従来のランダム化測度スキームを豊かにすることにより,局所的ユニタリ進化のみでは実現しない。
このスキームは、キュービットペア上のベル測度を介してn量子ビットにスケーラブルである。
この推定器は、影推定に基づくスキームと比較して、システムエラーやノイズに対してより堅牢性を示しながら、連続した結果から直接導出することができる。
固定された測定資源の下では、より多彩な測定設定と、より少ない設定の繰り返しにより、より効率的であることが判明した。
我々のプロトコルと実証は、実際に行われている量子状態の直接的特徴づけを前進させる。
Entanglement plays a fundamental role in quantum physics and information processing. Here, we develop an unbiased estimator for mixed-state entanglement in the few-shot scenario and directly estimate it using random unitary evolution in a photonic system. As a supplement to traditional projective measurements, we incorporate Bell measurements on qubit-pairs, enriching the previous randomized measurement scheme, which is no-go in this task with only local unitary evolution. The scheme is scalable to n-qubits via Bell measurements on qubit-pairs. The estimator can be derived directly from a few consecutive outcomes while exhibiting greater robustness to system errors and noise compared to schemes based on shadow estimation. We find that, under a fixed measurement resource, the way with more versatile measurement settings with fewer repeats per setting is more efficient. Our protocol and demonstration advance the direct characterization of quantum states in practice. | 翻訳日:2024-07-10 01:29:45 公開日:2024-07-06 |
# マルウェアデータ依存グラフの特徴のkNN分類
kNN Classification of Malware Data Dependency Graph Features ( http://arxiv.org/abs/2406.02654v2 ) ライセンス: Link先を確認 | John Musgrave, Anca Ralescu, | (参考訳) 分類結果の説明可能性は、分類に使用される特徴に依存する。
データ移動を表すデータ依存グラフの特徴は、操作意味論と直接相関しており、きめ細かい分析の対象となっている。
本研究では,構造や意味に関連付けられた特徴を用いて,正確な分類を行う。
ラベル付きデータを用いて正確なモデルを訓練することにより、この意味論の特徴表現が基底真理ラベルと相関していることが示される。
これは、大規模データセットであるKaggle 2015 Malwareデータセットに新しい特徴表現を持つ非パラメトリック学習を使用して実施された。
使用した機能は、きめ細かい分析、解像度の向上、説明可能な推論を可能にする。
これにより、項周波数分布のボディをより分析し、項周波数特性よりも特徴分解能を高めることができる。
この方法は、1つの命令の分析から高い精度を得る。これは、追加の命令を繰り返すことで、さらなる精度の向上を得ることができる方法である。
本研究は, 構造の意味表現と解析が正確な述語化が可能であり, 基礎的真理ラベルと相関しているという仮説を評価する。
さらに、計量空間の類似性は事前の訓練なしに直接計算することができる。
この結果から,データ依存グラフが意味的情報と構造的情報の両方を正確に把握し,分類結果の説明可能性を高めることが示唆された。
Explainability in classification results are dependent upon the features used for classification. Data dependency graph features representing data movement are directly correlated with operational semantics, and subject to fine grained analysis. This study obtains accurate classification from the use of features tied to structure and semantics. By training an accurate model using labeled data, this feature representation of semantics is shown to be correlated with ground truth labels. This was performed using non-parametric learning with a novel feature representation on a large scale dataset, the Kaggle 2015 Malware dataset. The features used enable fine grained analysis, increase in resolution, and explainable inferences. This allows for the body of the term frequency distribution to be further analyzed and to provide an increase in feature resolution over term frequency features. This method obtains high accuracy from analysis of a single instruction, a method that can be repeated for additional instructions to obtain further increases in accuracy. This study evaluates the hypothesis that the semantic representation and analysis of structure are able to make accurate predications and are also correlated to ground truth labels. Additionally, similarity in the metric space can be calculated directly without prior training. Our results provide evidence that data dependency graphs accurately capture both semantic and structural information for increased explainability in classification results. | 翻訳日:2024-07-10 01:20:00 公開日:2024-07-06 |
# 離散拡散の吸収はクリーンデータの条件分布をひそかにモデル化する
Your Absorbing Discrete Diffusion Secretly Models the Conditional Distributions of Clean Data ( http://arxiv.org/abs/2406.03736v2 ) ライセンス: Link先を確認 | Jingyang Ou, Shen Nie, Kaiwen Xue, Fengqi Zhu, Jiacheng Sun, Zhenguo Li, Chongxuan Li, | (参考訳) 吸収過程を持つ離散拡散モデルは言語モデリングにおいて有望であることを示す。
推定すべき重要な量は、コンクリートスコアと呼ばれる任意の時間ステップにおける2つの遷移状態の限界確率の比率である。
本稿では, 吸収拡散の具体的なスコアを, 時間依存スカラーを解析形式で乗じて, クリーンデータの条件確率として表現できることを明らかにする。
そこで本研究では,時間非依存の条件付き確率を特徴付ける時間条件のない専用拡散モデルRADDを提案する。
単純さに加えて、RADはサンプリング間隔でノイズサンプルが変化しない場合に、時間に依存しないネットワークの出力をキャッシュすることで、関数評価(NFE)の数を削減できる。
RADDは最大3.5倍高速で、最強のベースラインで同様の性能を実現している。
条件分布の新しい視点に基づいて、離散拡散と任意の順序自己回帰モデル(AO-ARMs)の吸収をさらに統一し、拡散モデルに対する負の対数線上の上界が、AO-ARMsにとって期待される負の対数線と解釈できることを示す。
さらに,GPT-2スケールでの5つのゼロショット言語モデリングベンチマーク(パープレキシティによる測定)における拡散モデル間のSOTA性能について検討した。
私たちのコードはhttps://github.com/ML-GSAI/RADD.comで公開されています。
Discrete diffusion models with absorbing processes have shown promise in language modeling. The key quantities to be estimated are the ratios between the marginal probabilities of two transitive states at all timesteps, called the concrete score. In this paper, we reveal that the concrete score in absorbing diffusion can be expressed as conditional probabilities of clean data, multiplied by a time-dependent scalar in an analytic form. Motivated by this finding, we propose reparameterized absorbing discrete diffusion (RADD), a dedicated diffusion model without time-condition that characterizes the time-independent conditional probabilities. Besides its simplicity, RADD can reduce the number of function evaluations (NFEs) by caching the output of the time-independent network when the noisy sample remains unchanged in a sampling interval. Empirically, RADD is up to 3.5 times faster while achieving similar performance with the strongest baseline. Built upon the new perspective of conditional distributions, we further unify absorbing discrete diffusion and any-order autoregressive models (AO-ARMs), showing that the upper bound on the negative log-likelihood for the diffusion model can be interpreted as an expected negative log-likelihood for AO-ARMs. Further, our RADD models achieve SOTA performance among diffusion models on 5 zero-shot language modeling benchmarks (measured by perplexity) at the GPT-2 scale. Our code is available at https://github.com/ML-GSAI/RADD. | 翻訳日:2024-07-10 01:20:00 公開日:2024-07-06 |
# ExioML:グローバルセクタサステナビリティにおける機械学習のためのエコエコノミクスデータセット
ExioML: Eco-economic dataset for Machine Learning in Global Sectoral Sustainability ( http://arxiv.org/abs/2406.09046v2 ) ライセンス: Link先を確認 | Yanming Guo, Charles Guan, Jin Ma, | (参考訳) 環境拡張多段階インプット・アウトプット分析は、経済活動の環境影響を評価するための生態経済学の主要な枠組みである。
本稿では,持続可能性分析のための最初の機械学習ベンチマークデータセットであるExioMLを紹介する。
セクターサステナビリティを評価し,データセットのユーザビリティを実証するために,温室効果ガスのレグレッションタスクを実施した。
従来の浅層モデルと深層学習モデルを比較し,因子会計表を多用し,分類的・数値的特徴を取り入れた。
この結果から,ExioMLはユーザビリティが高く,深層およびアンサンブルモデルによる平均二乗誤差の低減を可能にし,将来の機械学習研究のベースラインを確立した。
ExioMLを通じて、さまざまな機械学習アプリケーションをサポートする基盤データセットを構築し、気候変動対策と持続可能な投資決定を促進することを目指している。
The Environmental Extended Multi-Regional Input-Output analysis is the predominant framework in Ecological Economics for assessing the environmental impact of economic activities. This paper introduces ExioML, the first Machine Learning benchmark dataset designed for sustainability analysis, aimed at lowering barriers and fostering collaboration between Machine Learning and Ecological Economics research. A crucial greenhouse gas emission regression task was conducted to evaluate sectoral sustainability and demonstrate the usability of the dataset. We compared the performance of traditional shallow models with deep learning models, utilizing a diverse Factor Accounting table and incorporating various categorical and numerical features. Our findings reveal that ExioML, with its high usability, enables deep and ensemble models to achieve low mean square errors, establishing a baseline for future Machine Learning research. Through ExioML, we aim to build a foundational dataset supporting various Machine Learning applications and promote climate actions and sustainable investment decisions. | 翻訳日:2024-07-10 01:20:00 公開日:2024-07-06 |
# 最適リワードラベリング: オフライン選好とリワードベース強化学習のブリッジング
Optimal Reward Labeling: Bridging Offline Preference and Reward-Based Reinforcement Learning ( http://arxiv.org/abs/2406.10445v2 ) ライセンス: Link先を確認 | Yinglun Xu, David Zhu, Rohan Gumaste, Gagandeep Singh, | (参考訳) オフライン強化学習は、最も実践的なRL設定の一つとなっている。
最近の成功談はRLHFで、人間の好みによるオフラインの好みに基づくRL(PBRL)である。
しかしながら、オフラインRLに関する既存の作業のほとんどは、スカラー報酬フィードバックによる標準設定に重点を置いている。
既存のオフラインRLのリッチな理解を報酬ベースから優先ベースの設定へ普遍的に移行する方法は、まだ分かっていない。
本研究では,このギャップを埋めるための一般的な枠組みを提案する。
我々の重要な洞察は、好みのフィードバックを最適報酬ラベル(ORL)によってスカラー報酬に変換し、任意の報酬ベースのオフラインRLアルゴリズムを報酬ラベル付きデータセットに適用できることです。
理論的には、最近のPBRL技術と我々のフレームワークと特定のオフラインRLアルゴリズムとの接続を、優先信号をどのように利用するかという点で示す。
報酬ラベルと異なるアルゴリズムを組み合わせることで、我々のフレームワークは新しく、より効率的なオフラインPBRLアルゴリズムを生み出すことができる。
我々は、標準D4RLベンチマークに基づいて、好みのデータセットに基づいて、我々のフレームワークを実証的にテストする。
様々な効率的な報酬ベースのオフラインRLアルゴリズムと組み合わせると、我々のフレームワークで得られた学習結果は、データセット上で同じアルゴリズムをトレーニングするのに匹敵するものであり、多くの場合、実際の報酬と、最近のPBRLベースラインよりも優れている。
Offline reinforcement learning has become one of the most practical RL settings. A recent success story has been RLHF, offline preference-based RL (PBRL) with preference from humans. However, most existing works on offline RL focus on the standard setting with scalar reward feedback. It remains unknown how to universally transfer the existing rich understanding of offline RL from the reward-based to the preference-based setting. In this work, we propose a general framework to bridge this gap. Our key insight is transforming preference feedback to scalar rewards via optimal reward labeling (ORL), and then any reward-based offline RL algorithms can be applied to the dataset with the reward labels. We theoretically show the connection between several recent PBRL techniques and our framework combined with specific offline RL algorithms in terms of how they utilize the preference signals. By combining reward labeling with different algorithms, our framework can lead to new and potentially more efficient offline PBRL algorithms. We empirically test our framework on preference datasets based on the standard D4RL benchmark. When combined with a variety of efficient reward-based offline RL algorithms, the learning result achieved under our framework is comparable to training the same algorithm on the dataset with actual rewards in many cases and better than the recent PBRL baselines in most cases. | 翻訳日:2024-07-10 01:10:12 公開日:2024-07-06 |
# ニュースイベント検出のための大規模言語モデル強化クラスタリング
Large Language Model Enhanced Clustering for News Event Detection ( http://arxiv.org/abs/2406.10552v4 ) ライセンス: Link先を確認 | Adane Nega Tarekegn, | (参考訳) ニュースの世界は継続的に進化し続けており、世界中の情報が増え続けている。
この巨大なデータリポジトリ内のイベントの自動検出は、さまざまなプラットフォーム間で重要なニュースを監視、識別、分類するために不可欠である。
本稿では,大規模言語モデル(LLM)とクラスタリング分析を組み合わせて,GDELT(Global Database of Events, Language, and Tone)からニュースイベントを検出するイベント検出フレームワークを提案する。
このフレームワークは、イベント検出タスク(キーワード抽出とテキスト埋め込み)と後検出タスク(イベント要約とトピックラベリング)の両方を通じてイベントクラスタリングを強化する。
また、各種テキスト埋め込みがクラスタリング結果の質に及ぼす影響を評価し、ロバストなニュース分類を確実にする。
さらに,クラスタリング結果の有効性とロバスト性を評価するために,新しいクラスタ安定性評価指標(CSAI)を導入する。
CSAIは、クラスタリングの品質を計測する新しい方法を提供するために、複数の特徴ベクトルを使用している。
イベント検出フレームワークにLLMを組み込むことにより,CSAIスコアの信頼性が向上し,結果が大幅に向上したことを示す。
さらに、イベント検出タスクは意味のある洞察を生成し、イベントクラスタリング結果の効果的な解釈を容易にする。
実験結果から,提案フレームワークは貴重な洞察を与え,ニュース分析や報告の精度を高める可能性が示唆された。
The news landscape is continuously evolving, with an ever-increasing volume of information from around the world. Automated event detection within this vast data repository is essential for monitoring, identifying, and categorizing significant news occurrences across diverse platforms. This paper presents an event detection framework that leverages Large Language Models (LLMs) combined with clustering analysis to detect news events from the Global Database of Events, Language, and Tone (GDELT). The framework enhances event clustering through both pre-event detection tasks (keyword extraction and text embedding) and post-event detection tasks (event summarization and topic labelling). We also evaluate the impact of various textual embeddings on the quality of clustering outcomes, ensuring robust news categorization. Additionally, we introduce a novel Cluster Stability Assessment Index (CSAI) to assess the validity and robustness of clustering results. CSAI utilizes multiple feature vectors to provide a new way of measuring clustering quality. Our experiments indicate that the use of LLM embedding in the event detection framework has significantly improved the results, demonstrating greater robustness in terms of CSAI scores. Moreover, post-event detection tasks generate meaningful insights, facilitating effective interpretation of event clustering results. Overall, our experimental results indicate that the proposed framework offers valuable insights and could enhance the accuracy in news analysis and reporting. | 翻訳日:2024-07-10 01:10:12 公開日:2024-07-06 |
# SCAR: スタイル一貫性を考慮した応答ランク付けによる大規模言語モデルの効率的なインストラクションチューニング
SCAR: Efficient Instruction-Tuning for Large Language Models via Style Consistency-Aware Response Ranking ( http://arxiv.org/abs/2406.10882v3 ) ライセンス: Link先を確認 | Zhuang Li, Yuncheng Hua, Thuy-Trang Vu, Haolan Zhan, Lizhen Qu, Gholamreza Haffari, | (参考訳) 近年の研究では、人間の専門家による一貫した応答スタイルを維持し、トレーニングセットにおけるデータ品質を向上させることで、微調整された大規模言語モデル(LLM)の性能を大幅に向上し、必要なトレーニング例の数を削減できることが示されている。
しかし、スタイルの正確な定義と、スタイル、データ品質、LLMパフォーマンスの関係は、まだ不明である。
本研究は、応答スタイルをプレゼンテーションスタイルとコンポジションスタイルに分解し、類似品質のトレーニングデータのうち、高いスタイル整合性を持つものがLLM性能の向上につながることを明らかにする。
そこで本研究では,SCAR(Style Consistency-Aware Response Ranking)を導入する。
完全なデータセットの上位25%から0.7%まで、最もスタイルに一貫性のある例を選択することで、微調整されたLLMは、コーディングとオープンエンドの質問回答ベンチマークにおいて、データセット全体でトレーニングされたモデルのパフォーマンスにマッチまたは超えることができる。
コードとデータはhttps://github.com/zhuang-li/SCAR で公開されている。
Recent studies have shown that maintaining a consistent response style by human experts and enhancing data quality in training sets can significantly improve the performance of fine-tuned Large Language Models (LLMs) while reducing the number of training examples needed. However, the precise definition of style and the relationship between style, data quality, and LLM performance remains unclear. This research decomposes response style into presentation and composition styles and finds that, among training data of similar quality, those with higher style consistency lead to better LLM performance. Inspired by this, we introduce Style Consistency-Aware Response Ranking (SCAR), which automatically prioritizes instruction-response pairs in the training set based on their response stylistic consistency. By selecting the most style-consistent examples, ranging from the top 25% to 0.7% of the full dataset, the fine-tuned LLMs can match or even surpass the performance of models trained on the entire dataset in coding and open-ended question-answering benchmarks. Code and data are available at https://github.com/zhuang-li/SCAR . | 翻訳日:2024-07-10 01:10:12 公開日:2024-07-06 |
# WindowMixer: 時系列予測のためのWindow内およびWindow間モデリング
WindowMixer: Intra-Window and Inter-Window Modeling for Time Series Forecasting ( http://arxiv.org/abs/2406.12921v2 ) ライセンス: Link先を確認 | Quangao Liu, Ruiqi Li, Maowei Jiang, Wei Yang, Chen Liang, LongLong Pang, Zhuozhang Zou, | (参考訳) 時系列予測(TSF)は、経済予測、天気予報、交通流分析、公衆衛生監視などの分野で重要である。
実世界の時系列データには、しばしばノイズ、外れ値、欠落値が含まれており、正確な予測は困難である。
従来の手法では、複雑な時間パターンをキャプチャし、ノイズに対する感受性を高める能力を制限するポイント・ツー・ポイント関係をモデル化しており、これらの問題に対処するため、全MLPフレームワーク上に構築された WindowMixer モデルを導入している。
WindowMixerは、時間的変動をウィンドウベースの観点から調べることで、時系列の連続的な性質を活用する。
時系列をトレンドと季節的なコンポーネントに分解し、個別に扱う。
トレンドでは、完全に接続された(FC)層が予測を行う。
季節的なコンポーネントについては、ウィンドウトークンを生成するために時間ウィンドウが投影され、Window-MixerとInter-Window-Mixerモジュールによって処理される。
Window-Mixerはウィンドウ内の関係をモデル化し、Inter-Window-Mixerはウィンドウ間の関係をモデル化する。
実験により、WindowMixerは長期的な予測タスクと短期予測タスクの両方において、既存のメソッドを一貫して上回ります。
Time series forecasting (TSF) is crucial in fields like economic forecasting, weather prediction, traffic flow analysis, and public health surveillance. Real-world time series data often include noise, outliers, and missing values, making accurate forecasting challenging. Traditional methods model point-to-point relationships, which limits their ability to capture complex temporal patterns and increases their susceptibility to noise.To address these issues, we introduce the WindowMixer model, built on an all-MLP framework. WindowMixer leverages the continuous nature of time series by examining temporal variations from a window-based perspective. It decomposes time series into trend and seasonal components, handling them individually. For trends, a fully connected (FC) layer makes predictions. For seasonal components, time windows are projected to produce window tokens, processed by Intra-Window-Mixer and Inter-Window-Mixer modules. The Intra-Window-Mixer models relationships within each window, while the Inter-Window-Mixer models relationships between windows. This approach captures intricate patterns and long-range dependencies in the data.Experiments show WindowMixer consistently outperforms existing methods in both long-term and short-term forecasting tasks. | 翻訳日:2024-07-10 01:10:12 公開日:2024-07-06 |
# 内因性および外因性注意障害による顔の匿名化
Facial Identity Anonymization via Intrinsic and Extrinsic Attention Distraction ( http://arxiv.org/abs/2406.17219v2 ) ライセンス: Link先を確認 | Zhenzhong Kuang, Xiaochen Yang, Yingjie Shen, Chao Hu, Jun Yu, | (参考訳) 前例のない顔画像の捕獲と適用は、プライバシー開示と戦う匿名化への懸念が高まっている。
既存の方法の多くは、アイデンティティに依存しない情報の過剰な変更や、アイデンティティ保護の不十分な問題に悩まされる。
本稿では,内在的・外在的アイデンティティの注意をそらすことによって,新たな顔匿名化手法を提案する。
一方,特徴空間におけるアイデンティティ情報の匿名化は,本質的なアイデンティティの注意をそらすことによって行う。
他方では,外在的アイデンティティの注意をそらすことにより,視覚的手がかり(外観と幾何学構造)を匿名化する。
提案手法では,顔の外観や形状を柔軟かつ直感的に操作することで,多様な結果が得られる。
複数のデータセットに対して広範な実験を行い、我々のアプローチが最先端の手法より優れていることを示す。
The unprecedented capture and application of face images raise increasing concerns on anonymization to fight against privacy disclosure. Most existing methods may suffer from the problem of excessive change of the identity-independent information or insufficient identity protection. In this paper, we present a new face anonymization approach by distracting the intrinsic and extrinsic identity attentions. On the one hand, we anonymize the identity information in the feature space by distracting the intrinsic identity attention. On the other, we anonymize the visual clues (i.e. appearance and geometry structure) by distracting the extrinsic identity attention. Our approach allows for flexible and intuitive manipulation of face appearance and geometry structure to produce diverse results, and it can also be used to instruct users to perform personalized anonymization. We conduct extensive experiments on multiple datasets and demonstrate that our approach outperforms state-of-the-art methods. | 翻訳日:2024-07-10 01:00:13 公開日:2024-07-06 |
# MedCare:クリニカルアライメントとナレッジアグリゲーションの分離による医療用LLMの改善
MedCare: Advancing Medical LLMs through Decoupling Clinical Alignment and Knowledge Aggregation ( http://arxiv.org/abs/2406.17484v2 ) ライセンス: Link先を確認 | Yusheng Liao, Shuyang Jiang, Yanfeng Wang, Yu Wang, | (参考訳) 大規模言語モデル(LLM)は、特に医学分野で価値のある自然言語理解と生成の進歩を示す。
進歩にもかかわらず、医学的なタスクに固有の複雑さと多様性のために課題は継続され、知識集約的なタスクとアライメント要求タスクに分類される。
従来のアプローチでは後者のタスクを無視するか、少数のタスクに集中していたため、一般化が失われる。
これらの欠点に対処するため、我々はプログレッシブな微調整パイプラインを提案する。
このパイプラインは、ナレッジアグリゲータとノイズアグリゲータを使用して、最初の段階で多様な知識を符号化し、有害情報をフィルタリングする。
第2段階では、雑音アグリゲータを落として、最適下界表現の干渉を避けるとともに、知識空間への直交方向に最適化されたアライメントモジュールを活用して、知識の忘れを軽減します。
この2段階のパラダイムに基づいて、20以上の医療課題における最先端(SOTA)のパフォーマンスと、特定の医療アライメントタスクにおけるSOTA結果の達成を目的とした、臨床アライメントと知識アグリゲーション(MedCare)の分離による医療LLMを提案する。
MedCare (1.8B, 7B, 14B) の様々なモデルサイズは、いずれも類似のモデルサイズを持つ既存のモデルよりも大幅に改善されている。
Large language models (LLMs) have shown substantial progress in natural language understanding and generation, proving valuable especially in the medical field. Despite advancements, challenges persist due to the complexity and diversity inherent in medical tasks, which can be categorized as knowledge-intensive tasks and alignment-required tasks. Previous approaches either ignore the latter task or focus on a minority of tasks and hence lose generalization. To address these drawbacks, we propose a progressive fine-tuning pipeline. This pipeline employs a Knowledge Aggregator and a Noise aggregator to encode diverse knowledge in the first stage and filter out detrimental information. In the second stage, we drop the Noise Aggregator to avoid the interference of suboptimal representation and leverage an additional alignment module optimized towards an orthogonal direction to the knowledge space to mitigate knowledge forgetting. Based on this two-stage paradigm, we proposed a Medical LLM through decoupling Clinical Alignment and Knowledge Aggregation (MedCare), which is designed to achieve state-of-the-art (SOTA) performance on over 20 medical tasks, as well as SOTA results on specific medical alignment tasks. Various model sizes of MedCare (1.8B, 7B, 14B) all demonstrate significant improvements over existing models with similar model sizes. | 翻訳日:2024-07-10 00:50:23 公開日:2024-07-06 |
# DocParseNet: 効率的なスキャンドキュメンテーションアノテーションのための高度なセマンティックセグメンテーションとOCR埋め込み
DocParseNet: Advanced Semantic Segmentation and OCR Embeddings for Efficient Scanned Document Annotation ( http://arxiv.org/abs/2406.17591v2 ) ライセンス: Link先を確認 | Ahmad Mohammadshirazi, Ali Nosrati Firoozsalari, Mengxi Zhou, Dheeraj Kulshrestha, Rajiv Ramnath, | (参考訳) スキャンされた文書のアノテーションを自動化することは困難であり、計算効率と精度のバランスを取る必要がある。
DocParseNetは、ディープラーニングとマルチモーダル学習を組み合わせて、テキストとビジュアルデータの両方を処理することで、この問題に対処する。
このモデルは従来のOCRやセマンティックセグメンテーションを超えて、テキストと画像間の相互作用をキャプチャして、複雑なドキュメント構造におけるコンテキストニュアンスを保存する。
評価の結果,DocParseNetは従来のモデルよりも優れており,検証ではmIoUスコアが49.12,テストセットでは49.78であった。
これは、最先端のベースラインモデルよりも58%精度が向上し、UNextベースラインよりも18%向上したことを反映している。
注目すべきは、DocParseNetはたった280万のパラメータでこれらの結果を達成することで、モデルのサイズを約25倍削減し、他のモデルと比べてトレーニングを5倍高速化する。
これらのメトリクスは、0.034 TFLOPs (BS=1) の計算効率と相まって、DocParseNetのドキュメントアノテーションにおけるハイパフォーマンスを強調している。
モデルの適応性とスケーラビリティは、実際の企業文書処理アプリケーションに適しています。
コードはhttps://github.com/ahmad-shirazi/DocParseNetで入手できる。
Automating the annotation of scanned documents is challenging, requiring a balance between computational efficiency and accuracy. DocParseNet addresses this by combining deep learning and multi-modal learning to process both text and visual data. This model goes beyond traditional OCR and semantic segmentation, capturing the interplay between text and images to preserve contextual nuances in complex document structures. Our evaluations show that DocParseNet significantly outperforms conventional models, achieving mIoU scores of 49.12 on validation and 49.78 on the test set. This reflects a 58% accuracy improvement over state-of-the-art baseline models and an 18% gain compared to the UNext baseline. Remarkably, DocParseNet achieves these results with only 2.8 million parameters, reducing the model size by approximately 25 times and speeding up training by 5 times compared to other models. These metrics, coupled with a computational efficiency of 0.034 TFLOPs (BS=1), highlight DocParseNet's high performance in document annotation. The model's adaptability and scalability make it well-suited for real-world corporate document processing applications. The code is available at https://github.com/ahmad-shirazi/DocParseNet | 翻訳日:2024-07-10 00:50:23 公開日:2024-07-06 |
# 弱差分オンライン学習によるナッシュインセンティブ型オンラインメカニズム学習
Nash Incentive-compatible Online Mechanism Learning via Weakly Differentially Private Online Learning ( http://arxiv.org/abs/2407.04898v1 ) ライセンス: Link先を確認 | Joon Suk Huh, Kirthevasan Kandasamy, | (参考訳) 本研究では,複数ラウンドの機構設計問題について検討し,一組のエージェントと一組のラウンドで対話する。
我々は,エージェントの型分布の事前知識を必要とせずに,特定の機構のクラス内でアプリケーション固有の目的を最大化するために,インセンティブ互換(IC)オンライン学習スキームを設計したい。
このクラスの各メカニズムが1ラウンドでICであっても、アルゴリズムが各ラウンドでこのクラスから中立に選択したとしても、学習プロセス全体は複数のラウンドにまたがる非明視的購入者に対してICではないかもしれない。
各ラウンドにおいて,本手法は,弱微分型オンライン学習アルゴリズム(Hedgeなど)の推薦と,非実効的な行為を罰するコミットメントメカニズムとをランダムに選択する。
提案手法はICであり,アプリケーション固有の目的に対して,エージェントの長時間の監視を$h$で定量化することで,アプリケーション固有の目的に対して$O(T^{\frac{1+h}{2}})の後悔を実現する。
従来の作業と比較した場合,提案手法は概念的に単純であり,一般的な機構設計問題(オークション以外の)に適用できる。
We study a multi-round mechanism design problem, where we interact with a set of agents over a sequence of rounds. We wish to design an incentive-compatible (IC) online learning scheme to maximize an application-specific objective within a given class of mechanisms, without prior knowledge of the agents' type distributions. Even if each mechanism in this class is IC in a single round, if an algorithm naively chooses from this class on each round, the entire learning process may not be IC against non-myopic buyers who appear over multiple rounds. On each round, our method randomly chooses between the recommendation of a weakly differentially private online learning algorithm (e.g., Hedge), and a commitment mechanism which penalizes non-truthful behavior. Our method is IC and achieves $O(T^{\frac{1+h}{2}})$ regret for the application-specific objective in an adversarial setting, where $h$ quantifies the long-sightedness of the agents. When compared to prior work, our approach is conceptually simpler,it applies to general mechanism design problems (beyond auctions), and its regret scales gracefully with the size of the mechanism class. | 翻訳日:2024-07-09 22:07:12 公開日:2024-07-06 |
# ニューラルコンパイルライブラリを用いたアルゴリズム言語モデル
Algorithmic Language Models with Neurally Compiled Libraries ( http://arxiv.org/abs/2407.04899v1 ) ライセンス: Link先を確認 | Lucas Saldyt, Subbarao Kambhampati, | (参考訳) 推論や計画といった重要なタスクは基本的にアルゴリズムであり、その解決にはショートカットではなく、真の推論や計画アルゴリズムの取得が不可欠である。
大規模言語モデルは、主にニューラルネットワーク最適化アルゴリズムの限界、最適化データと最適化の目的のため、真のアルゴリズム能力を欠いているが、アーキテクチャ的非表現性も原因である。
これを解決するため,本論文では,基本的な操作ライブラリと高度な微分可能プログラムによるLLMの拡張を提案し,共通アルゴリズムをスクラッチから学習する必要はない。
LLaMA3上に構築されたトランスフォーマーアーキテクチャに、メモリ、レジスタ、基本的な操作、適応的な再実行を追加します。
そこで我々は,アルゴリズムを直接微分可能な開始ライブラリにコンパイルする手法を定義した。
本稿では,LLaMA3を微分可能なコンピュータで拡張する可能性について検討する。
Important tasks such as reasoning and planning are fundamentally algorithmic, meaning that solving them robustly requires acquiring true reasoning or planning algorithms, rather than shortcuts. Large Language Models lack true algorithmic ability primarily because of the limitations of neural network optimization algorithms, their optimization data and optimization objective, but also due to architectural inexpressivity. To solve this, our paper proposes augmenting LLMs with a library of fundamental operations and sophisticated differentiable programs, so that common algorithms do not need to be learned from scratch. We add memory, registers, basic operations, and adaptive recurrence to a transformer architecture built on LLaMA3. Then, we define a method for directly compiling algorithms into a differentiable starting library, which is used natively and propagates gradients for optimization. In this preliminary study, we explore the feasability of augmenting LLaMA3 with a differentiable computer, for instance by fine-tuning small transformers on simple algorithmic tasks with variable computational depth. | 翻訳日:2024-07-09 22:07:12 公開日:2024-07-06 |
# ギャップの閉鎖:データ駆動ニューズベンダー問題に対するサンプル平均近似の最適性
Closing the Gaps: Optimality of Sample Average Approximation for Data-Driven Newsvendor Problems ( http://arxiv.org/abs/2407.04900v1 ) ライセンス: Link先を確認 | Jiameng Lyu, Shilin Yuan, Bingkun Zhou, Yuan Zhou, | (参考訳) 本研究では,一般的な凸在庫コストを伴うデータ駆動型ニュースベンダ問題に対して,SAA(Sample Average Approximation)の残念な性能について検討する。
文学において、SAAの最適性は、(\alpha,\beta)局所強凸性(\alpha-strongly convex)と(\alpha-global strong convexity)の両方の条件の下で完全に確立されていない。
本論文は, 両条件とも, 後悔する上界と下界のギャップを埋めるものである。
SAA に対する (\alpha,\beta)-局所強凸条件の下では、 \Theta (\log T/\alpha + 1/ (\alpha\beta)) の最適後悔境界が証明される。
この上界的な結果から,SAAの後悔性能は,長期的には「アルファ」にのみ影響され,「ベタ」には影響されないことが示され,地域特性が意思決定戦略の長期後悔性能にどのように影響するかについての理解が深まる。
ここでは,任意のデータ駆動手法の最悪の後悔が,パラメータ \alpha と Time horizon T の両方に関して既存の上界に一致する最初の下界結果である \Omega(\log T/\alpha) によって下界に収まることを示す。
We study the regret performance of Sample Average Approximation (SAA) for data-driven newsvendor problems with general convex inventory costs. In literature, the optimality of SAA has not been fully established under both \alpha-global strong convexity and (\alpha,\beta)-local strong convexity (\alpha-strongly convex within the \beta-neighborhood of the optimal quantity) conditions. This paper closes the gaps between regret upper and lower bounds for both conditions. Under the (\alpha,\beta)-local strong convexity condition, we prove the optimal regret bound of \Theta(\log T/\alpha + 1/ (\alpha\beta)) for SAA. This upper bound result demonstrates that the regret performance of SAA is only influenced by \alpha and not by \beta in the long run, enhancing our understanding about how local properties affect the long-term regret performance of decision-making strategies. Under the \alpha-global strong convexity condition, we demonstrate that the worst-case regret of any data-driven method is lower bounded by \Omega(\log T/\alpha), which is the first lower bound result that matches the existing upper bound with respect to both parameter \alpha and time horizon T. Along the way, we propose to analyze the SAA regret via a new gradient approximation technique, as well as a new class of smooth inverted-hat-shaped hard problem instances that might be of independent interest for the lower bounds of broader data-driven problems. | 翻訳日:2024-07-09 22:07:12 公開日:2024-07-06 |
# マイクロ波遮蔽極性分子の3次元再結合
Three-Body Recombination of Ultracold Microwave-Shielded Polar Molecules ( http://arxiv.org/abs/2407.04901v1 ) ライセンス: Link先を確認 | Ian Stevenson, Shayamal Singh, Ahmed Elkamshishy, Niccoló Bigagli, Weijun Yuan, Siwei Zhang, Chris H. Greene, Sebastian Will, | (参考訳) マイクロ波遮蔽極性分子の気体中における3体組換え過程に関する実験的および理論的複合研究を行った。
強いマイクロ波場にdressした基底状態の極性分子では、磁場が結合した境界状態が分子間ポテンシャルに現れる。
我々は古典的軌跡計算を用いて3体組換えをそのような境界状態にモデル化する。
ボソニックNaCs [Bigagli, $\textit{et al }$, Nat。
Phys
$\textbf{19}$ 1579-1584 (2023)]
具体的には、実験によって測定された3体損失率をマイクロ波ラビカップリング、デチューニング、温度で再現する。
本研究は, 2体損失が十分に抑制され, 磁場結合状態が存在するボソニックシールド分子系において, 支配的損失過程が3体再結合となることを示唆する。
A combined experimental and theoretical study is carried out on the three-body recombination process in a gas of microwave-shielded polar molecules. For ground-state polar molecules dressed with a strong microwave field, field-linked bound states can appear in the intermolecular potential. We model three-body recombination into such bound states using classical trajectory calculations. Our results show that recombination can explain the enhanced loss rates observed at small microwave detunings in trapped samples of bosonic NaCs [Bigagli, $\textit{et al.}$, Nat. Phys. $\textbf{19}$ 1579-1584 (2023)]. Specifically, our calculations reproduce the experimentally measured three-body loss rates across a wide range of microwave Rabi couplings, detunings, and temperatures. This work suggests that for bosonic shielded molecular systems in which the two-body loss is sufficiently suppressed and a field-linked bound state is present, the dominant loss process will be three-body recombination. | 翻訳日:2024-07-09 22:07:12 公開日:2024-07-06 |
# MMSci:PhDレベル科学理解のためのマルチモーダル多分野データセット
MMSci: A Multimodal Multi-Discipline Dataset for PhD-Level Scientific Comprehension ( http://arxiv.org/abs/2407.04903v1 ) ライセンス: Link先を確認 | Zekun Li, Xianjun Yang, Kyuri Choi, Wanrong Zhu, Ryan Hsieh, HyeonJung Kim, Jin Hyuk Lim, Sungyoung Ji, Byungju Lee, Xifeng Yan, Linda Ruth Petzold, Stephen D. Wilson, Woosang Lim, William Yang Wang, | (参考訳) LLM(Large Language Models)とLMM(Large Multimodal Models)の急速な進歩により、科学論文や数字を理解できるAIベースの科学アシスタントの需要が高まった。
進歩にもかかわらず、モデルが専門的、大学院レベルの、さらには博士レベルの科学内容の理解を評価する際には、大きなギャップが残っている。
現在のデータセットとベンチマークは、主に比較的単純な科学的タスクと数字に焦点を当てており、様々な先進的な科学分野にわたる包括的な評価を欠いている。
このギャップを埋めるために、Nature Communications誌に掲載されたオープンアクセス科学論文から、マルチモーダルで多分野のデータセットを収集した。
このデータセットは72の科学分野にまたがっており、多様性と品質の両方を保証している。
科学的な数字や内容を理解する上でLMMの能力を総合的に評価するために,様々なタスクと設定のベンチマークを作成した。
GPT-4V や GPT-4o でさえも困難に直面している。
また、7B LLaVAモデルでGPT-4V/oに匹敵するパフォーマンスを実現するために、視覚的命令追従データを構築することで、データセットをトレーニングリソースとして使用することも検討した。
さらに,LMMの事前学習におけるインターリーブ記事テキストと図形画像の利用について検討し,素材生成作業の改善を図った。
記事、図、構築されたベンチマーク、ビジュアルインストラクション追跡データを含むソースデータセットは、オープンソースである。
The rapid advancement of Large Language Models (LLMs) and Large Multimodal Models (LMMs) has heightened the demand for AI-based scientific assistants capable of understanding scientific articles and figures. Despite progress, there remains a significant gap in evaluating models' comprehension of professional, graduate-level, and even PhD-level scientific content. Current datasets and benchmarks primarily focus on relatively simple scientific tasks and figures, lacking comprehensive assessments across diverse advanced scientific disciplines. To bridge this gap, we collected a multimodal, multidisciplinary dataset from open-access scientific articles published in Nature Communications journals. This dataset spans 72 scientific disciplines, ensuring both diversity and quality. We created benchmarks with various tasks and settings to comprehensively evaluate LMMs' capabilities in understanding scientific figures and content. Our evaluation revealed that these tasks are highly challenging: many open-source models struggled significantly, and even GPT-4V and GPT-4o faced difficulties. We also explored using our dataset as training resources by constructing visual instruction-following data, enabling the 7B LLaVA model to achieve performance comparable to GPT-4V/o on our benchmark. Additionally, we investigated the use of our interleaved article texts and figure images for pre-training LMMs, resulting in improvements on the material generation task. The source dataset, including articles, figures, constructed benchmarks, and visual instruction-following data, is open-sourced. | 翻訳日:2024-07-09 22:07:12 公開日:2024-07-06 |
# 強結合有機マイクロキャビティにおける多重相互作用フォトニックモード
Multiple Interacting Photonic Modes in Strongly Coupled Organic Microcavities ( http://arxiv.org/abs/2407.04904v1 ) ライセンス: Link先を確認 | Felipe Herrera, William L. Barnes, | (参考訳) 光キャビティ内の分子材料を用いた室温キャビティ量子電磁力学は、物理学、化学、材料科学に応用するための電子、核、フォトニック自由度を制御するためのエキサイティングな展望を提供する。
しかし、分子アンサンブルとの強い結合を達成するには、通常、高い分子密度と相当な電磁場閉じ込めが必要である。
これらの条件は通常、分子障害のかなりの程度と高度に構造化された状態のフォトニック密度を含む。
これらの付加的な複雑さが、原子や無機半導体のために発達した強いカップリングの通常の物理像をどの程度変化させるかは、まだ不明である。
現実的な多モード光共振器における分子アンサンブルの微視的量子的記述を用いて、線形分光法における真空ラビ分裂の出現は、光と物質間のコヒーレントな混合の十分な計量であることを示した。
低微細なマルチモード環境では、分子双極子は外部共振共振器モードに付随するフォトニック散逸チャネルと部分的にハイブリダイゼーションできる。
これらの真空誘起散逸過程は、最終的に系が維持できる光マターコヒーレンスの範囲を制限する。
Room temperature cavity quantum electrodynamics with molecular materials in optical cavities offers exciting prospects for controlling electronic, nuclear and photonic degrees of freedom for applications in physics, chemistry and materials science. However, achieving strong coupling with molecular ensembles typically requires high molecular densities and substantial electromagnetic field confinement. These conditions usually involve a significant degree of molecular disorder and a highly structured photonic density of states. It remains unclear to what extent these additional complexities modify the usual physical picture of strong coupling developed for atoms and inorganic semiconductors. Using a microscopic quantum description of molecular ensembles in realistic multimode optical resonators, we show that the emergence of a vacuum Rabi splitting in linear spectroscopy is a necessary but not sufficient metric of coherent admixing between light and matter. In low finesse multi-mode situations we find that molecular dipoles can be partially hybridised with photonic dissipation channels associated with off-resonant cavity modes. These vacuum-induced dissipative processes ultimately limit the extent of light-matter coherence that the system can sustain. | 翻訳日:2024-07-09 22:07:12 公開日:2024-07-06 |
# プライバシか透明性か? ロマンティックな関係における信頼の指標としてのスマートフォンアクセスの交渉
Privacy or Transparency? Negotiated Smartphone Access as a Signifier of Trust in Romantic Relationships ( http://arxiv.org/abs/2407.04906v1 ) ライセンス: Link先を確認 | Periwinkle Doerfler, Kieron Ivy Turk, Chris Geeng, Damon McCoy, Jeffrey Ackerman, Molly Dragiewicz, | (参考訳) 本研究では,2つの大規模調査を分析し,恋愛関係における信頼の関数として,個人がスマートフォンアクセスをロマンチックなパートナーと共有することをどう考えるかを検討する。
カップルの大多数はお互いのデバイスにアクセスできるが、アクセス方法に関して明示的あるいは暗黙的な境界がある可能性がある。
これらの境界と関連する社会的規範を調べると、ロマンチックな文脈で望ましいスマートフォンアクセスのレベル(すなわち透明性)やその欠如(すなわちプライバシー)についてはほとんど合意が得られないことが分かる。
しかし、アクセスのレベルは相互に、合意的であることは広く合意されている。
ほとんどの個人は、信頼が透明性とプライバシに関する決定の基礎であることを理解しています。
さらに、個人がこれらの境界を越えて、パートナーのプライバシを侵害し、信頼を裏切ることもわかりました。
我々は、どのように、いつ、なぜ、誰がこの裏切りが起こるかを調べる。
親密なパートナー暴力の場合、これらの境界違反の影響を考察する。
最後に,現在トラストによって実施されている境界の技術的施行を可能にするため,設計変更の勧告を行い,ユーザの共有嗜好に応じてアクセス制御を行う。
In this work, we analyze two large-scale surveys to examine how individuals think about sharing smartphone access with romantic partners as a function of trust in relationships. We find that the majority of couples have access to each others' devices, but may have explicit or implicit boundaries on how this access is to be used. Investigating these boundaries and related social norms, we find that there is little consensus about the level of smartphone access (i.e., transparency), or lack thereof (i.e., privacy) that is desirable in romantic contexts. However, there is broad agreement that the level of access should be mutual and consensual. Most individuals understand trust to be the basis of their decisions about transparency and privacy. Furthermore, we find individuals have crossed these boundaries, violating their partners' privacy and betraying their trust. We examine how, when, why, and by whom these betrayals occur. We consider the ramifications of these boundary violations in the case of intimate partner violence. Finally, we provide recommendations for design changes to enable technological enforcement of boundaries currently enforced by trust, bringing access control in line with users' sharing preferences. | 翻訳日:2024-07-09 21:57:27 公開日:2024-07-06 |
# SID: 逆条件下での自律運転のためのステレオ画像データセット
SID: Stereo Image Dataset for Autonomous Driving in Adverse Conditions ( http://arxiv.org/abs/2407.04908v1 ) ライセンス: Link先を確認 | Zaid A. El-Shair, Abdalmalek Abu-raddaha, Aaron Cofield, Hisham Alawneh, Mohamed Aladem, Yazan Hamzeh, Samir A. Rawashdeh, | (参考訳) ロバストな認識は、特に現実の環境でよく起こる悪天候や照明条件下では、自律運転に不可欠である。
本稿では,大規模なステレオ画像データセットであるStereo Image Dataset(SID)を紹介する。
車両に搭載されたZEDステレオカメラで20Hzの速度で記録されたSIDは、178K以上のステレオ画像ペアからなる27のシーケンスで構成され、晴れた空から重い雪まで、日中、夕暮れ、夜の間に撮影される。
データセットには、天気状況、日時、場所、道路状況に関する詳細なシーケンスレベルのアノテーションと、カメラレンズの汚れの例が含まれており、自律ナビゲーションにおける課題の現実的な表現を提供する。
本研究の目的は、高度な認識アルゴリズムの開発とテストに不可欠な高忠実度ステレオ画像を提供することにより、自律走行システムの研究における顕著なギャップを解決することである。
これらのアルゴリズムは、レンズの汚れのような困難な状況に対処する場合でも、様々な天候や照明条件をまたいで一貫した信頼性の高い操作をサポートする。
SID は https://doi.org/10.7302/esz6-nv83 で公開されている。
Robust perception is critical for autonomous driving, especially under adverse weather and lighting conditions that commonly occur in real-world environments. In this paper, we introduce the Stereo Image Dataset (SID), a large-scale stereo-image dataset that captures a wide spectrum of challenging real-world environmental scenarios. Recorded at a rate of 20 Hz using a ZED stereo camera mounted on a vehicle, SID consists of 27 sequences totaling over 178k stereo image pairs that showcase conditions from clear skies to heavy snow, captured during the day, dusk, and night. The dataset includes detailed sequence-level annotations for weather conditions, time of day, location, and road conditions, along with instances of camera lens soiling, offering a realistic representation of the challenges in autonomous navigation. Our work aims to address a notable gap in research for autonomous driving systems by presenting high-fidelity stereo images essential for the development and testing of advanced perception algorithms. These algorithms support consistent and reliable operation across variable weather and lighting conditions, even when handling challenging situations like lens soiling. SID is publicly available at: https://doi.org/10.7302/esz6-nv83. | 翻訳日:2024-07-09 21:57:27 公開日:2024-07-06 |
# NADI 2024:第5回アラビア方言識別タスク
NADI 2024: The Fifth Nuanced Arabic Dialect Identification Shared Task ( http://arxiv.org/abs/2407.04910v1 ) ライセンス: Link先を確認 | Muhammad Abdul-Mageed, Amr Keleg, AbdelRahim Elmadany, Chiyu Zhang, Injy Hamed, Walid Magdy, Houda Bouamor, Nizar Habash, | (参考訳) 第5回Nuanced Arabic Dialect Identification Shared Task (NADI 2024)の報告を行った。
NADIの目的は、ガイダンス、データセット、モデリングの機会を提供し、研究者が事前に特定されたタスクで協力的に競争できるように標準化された評価条件を提供することによって、SoTAアラビアNLPの前進を支援することである。
NADI 2024は、多ラベルタスク(Subtask~1)、アラビア語の方言レベル(Subtask~2)、方言からMSAへの機械翻訳(Subtask~3)の両方をターゲットとした。
共有タスクには51のユニークなチームが登録され、そのうち12チームが参加している(テストフェーズには76の有効な応募がある)。
このうち3チームがSubtask~1、Subtask~2、そして8チームがSubtask~3に出場した。
優勝チームはSubtask~1で50.57 F\textsubscript{1}、Subtask~2で0.1403 RMSE、Subtask~3で20.44 BLEUを獲得した。
その結果,方言識別や機械翻訳といったアラビア方言処理作業は依然として困難であることが示唆された。
参加チームが採用する手法について述べるとともに,NADIの展望を簡潔に述べる。
We describe the findings of the fifth Nuanced Arabic Dialect Identification Shared Task (NADI 2024). NADI's objective is to help advance SoTA Arabic NLP by providing guidance, datasets, modeling opportunities, and standardized evaluation conditions that allow researchers to collaboratively compete on pre-specified tasks. NADI 2024 targeted both dialect identification cast as a multi-label task (Subtask~1), identification of the Arabic level of dialectness (Subtask~2), and dialect-to-MSA machine translation (Subtask~3). A total of 51 unique teams registered for the shared task, of whom 12 teams have participated (with 76 valid submissions during the test phase). Among these, three teams participated in Subtask~1, three in Subtask~2, and eight in Subtask~3. The winning teams achieved 50.57 F\textsubscript{1} on Subtask~1, 0.1403 RMSE for Subtask~2, and 20.44 BLEU in Subtask~3, respectively. Results show that Arabic dialect processing tasks such as dialect identification and machine translation remain challenging. We describe the methods employed by the participating teams and briefly offer an outlook for NADI. | 翻訳日:2024-07-09 21:57:27 公開日:2024-07-06 |
# Contrastive CutMix Augmentation を用いたLong-Tailed 認識の高速化
Enhanced Long-Tailed Recognition with Contrastive CutMix Augmentation ( http://arxiv.org/abs/2407.04911v1 ) ライセンス: Link先を確認 | Haolin Pan, Yong Guo, Mianjie Yu, Jian Chen, | (参考訳) 現実世界のデータはしばしば長い尾の分布に従っており、いくつかのヘッドクラスがデータの大半を占め、多くのテールクラスはごく限られたサンプルしか含まない。
実際には、深いモデルでは、不均衡分布のため、テールクラスでの一般化性能が劣ることが多い。
これを解決するために、テールクラスのための新しいサンプルを合成することで、データ拡張が有効な方法となっている。
そのうちの1つは、テールクラスのイメージを明示的に混合するCutMixを使用することで、2つの画像から取得した領域の比率に応じてラベルを構築するのが一般的な方法である。
しかし、エリアベースのラベルは、強化されたサンプルの固有の意味情報を完全に無視し、しばしば誤った訓練信号を引き起こす。
この問題に対処するため,コントラスト型カットミクス (ConCutMix) を提案する。
具体的には、コントラスト学習によって学習された意味空間のサンプル間の類似性を計算し、それをエリアベースラベルの修正に利用する。
実験の結果、私たちのConCutMixはテールクラスの精度と全体的なパフォーマンスを大幅に改善します。
例えば、ResNeXt-50に基づいて、テールクラスの3.3%の大幅な改善により、ImageNet-LTの全体的な精度を3.0%改善する。
この改善は、他のベンチマークやモデルにも当てはまります。
私たちのコードと事前トレーニングされたモデルはhttps://github.com/PanHaulin/ConCutMix.comで公開されています。
Real-world data often follows a long-tailed distribution, where a few head classes occupy most of the data and a large number of tail classes only contain very limited samples. In practice, deep models often show poor generalization performance on tail classes due to the imbalanced distribution. To tackle this, data augmentation has become an effective way by synthesizing new samples for tail classes. Among them, one popular way is to use CutMix that explicitly mixups the images of tail classes and the others, while constructing the labels according to the ratio of areas cropped from two images. However, the area-based labels entirely ignore the inherent semantic information of the augmented samples, often leading to misleading training signals. To address this issue, we propose a Contrastive CutMix (ConCutMix) that constructs augmented samples with semantically consistent labels to boost the performance of long-tailed recognition. Specifically, we compute the similarities between samples in the semantic space learned by contrastive learning, and use them to rectify the area-based labels. Experiments show that our ConCutMix significantly improves the accuracy on tail classes as well as the overall performance. For example, based on ResNeXt-50, we improve the overall accuracy on ImageNet-LT by 3.0% thanks to the significant improvement of 3.3% on tail classes. We highlight that the improvement also generalizes well to other benchmarks and models. Our code and pretrained models are available at https://github.com/PanHaulin/ConCutMix. | 翻訳日:2024-07-09 21:57:27 公開日:2024-07-06 |
# マルチモーダルMRI解析のための特徴分散学習の完全化
Completed Feature Disentanglement Learning for Multimodal MRIs Analysis ( http://arxiv.org/abs/2407.04916v1 ) ライセンス: Link先を確認 | Tianling Liu, Hongying Liu, Fanhua Shang, Lequan Yu, Tong Han, Liang Wan, | (参考訳) マルチモーダルMRIは臨床診断と治療において重要な役割を担っている。
マルチモーダルデータ解析における優れた特徴表現の学習を目的としたFDベースの手法は,マルチモーダル学習(MML)において大きな成功を収めている。
既存のFDベースの手法では、マルチモーダルデータをモダリティ共有とモダリティ固有の特徴に分離し、それらの特徴を統合するために結合または注意機構を用いる。
しかし, 予備実験により, 入力が2つ以上のモダリティを含む場合, モダリティのサブセット間で共有情報が失われる可能性が示唆された。
さらに,これらの手法は融合段階における解離した特徴間の関係を適切に解釈するものではない。
これらの制約に対処するため,機能分離時に失われた情報を復元する新しいCFD(Complete Feature Disentanglement)戦略を提案する。
具体的には、CFD戦略は、モダリティ共有特徴とモダリティ特異的特徴を識別するだけでなく、モダリティ共有特徴と呼ばれるマルチモーダル入力のサブセット間の共有特徴を分離する。
さらに,これらの分離された特徴を動的に統合し,特徴間の局所的・言語的関係を明示的に学習する,新しいMDF(Dynamic Mixture-of-Experts Fusion)モジュールを導入する。
提案手法の有効性は3つのマルチモーダルMRIデータセットの分類タスクを通して検証する。
以上の結果から,本手法が他の最先端MML手法よりも優れた性能を示すことが明らかとなった。
Multimodal MRIs play a crucial role in clinical diagnosis and treatment. Feature disentanglement (FD)-based methods, aiming at learning superior feature representations for multimodal data analysis, have achieved significant success in multimodal learning (MML). Typically, existing FD-based methods separate multimodal data into modality-shared and modality-specific features, and employ concatenation or attention mechanisms to integrate these features. However, our preliminary experiments indicate that these methods could lead to a loss of shared information among subsets of modalities when the inputs contain more than two modalities, and such information is critical for prediction accuracy. Furthermore, these methods do not adequately interpret the relationships between the decoupled features at the fusion stage. To address these limitations, we propose a novel Complete Feature Disentanglement (CFD) strategy that recovers the lost information during feature decoupling. Specifically, the CFD strategy not only identifies modality-shared and modality-specific features, but also decouples shared features among subsets of multimodal inputs, termed as modality-partial-shared features. We further introduce a new Dynamic Mixture-of-Experts Fusion (DMF) module that dynamically integrates these decoupled features, by explicitly learning the local-global relationships among the features. The effectiveness of our approach is validated through classification tasks on three multimodal MRI datasets. Extensive experimental results demonstrate that our approach outperforms other state-of-the-art MML methods with obvious margins, showcasing its superior performance. | 翻訳日:2024-07-09 21:57:27 公開日:2024-07-06 |
# 科学画像における大きなテンソルの扱いは
qlty: handling large tensors in scientific imaging ( http://arxiv.org/abs/2407.04920v1 ) ライセンス: Link先を確認 | Petrus Zwart, | (参考訳) 科学的イメージングにおいて、ディープラーニングは画像分析の重要なツールとなっている。
しかし、標準的なGPUのメモリ容量を超える大きなボリュームデータセットを扱うには、ディープラーニングの取り組みに従わなければならない。
本稿では、テンソル管理技術を用いてこれらの課題に対処するツールキットであるqltyを紹介する。
qltyは、大規模な空間データのサブサンプリング、クリーニング、縫合のための堅牢な方法を提供する。
In scientific imaging, deep learning has become a pivotal tool for image analytics. However, handling large volumetric datasets, which often exceed the memory capacity of standard GPUs, require special attention when subjected to deep learning efforts. This paper introduces qlty, a toolkit designed to address these challenges through tensor management techniques. qlty offers robust methods for subsampling, cleaning, and stitching of large-scale spatial data, enabling effective training and inference even in resource-limited environments. | 翻訳日:2024-07-09 21:57:27 公開日:2024-07-06 |
# 熱マップ回帰のための最適輸送損失を用いた大動脈根のランドマーク位置推定
Aortic root landmark localization with optimal transport loss for heatmap regression ( http://arxiv.org/abs/2407.04921v1 ) ライセンス: Link先を確認 | Tsuyoshi Ishizone, Masaki Miyasaka, Sae Ochi, Norio Tada, Kazuyuki Nakamura, | (参考訳) 医師の負担を軽減するため、解剖学的ランドマーク化が注目されている。
大動脈弁の3つのヒンジポイントは,大動脈弁移植手術に必要な弁径を自動的に判定することで,大動脈根の局所化に着目して負担を軽減することができる。
既存の大動脈根のランドマーク予測法は主に2段階推定法を用いている。
粗い画像からの高精度な一段階ランドマーク定位法を提案する。
提案手法は, 従来の熱マップ回帰法において, 予測精度と学習安定性とのトレードオフを断ち切るために, 最適輸送損失を用いる。
本手法を仙台高瀬井病院で収集した3次元CT画像データセットに適用し,既存手法および他の損失関数に対する推定誤差を大幅に改善することを示す。
私たちのコードはGitHubで入手可能です。
Anatomical landmark localization is gaining attention to ease the burden on physicians. Focusing on aortic root landmark localization, the three hinge points of the aortic valve can reduce the burden by automatically determining the valve size required for transcatheter aortic valve implantation surgery. Existing methods for landmark prediction of the aortic root mainly use time-consuming two-step estimation methods. We propose a highly accurate one-step landmark localization method from even coarse images. The proposed method uses an optimal transport loss to break the trade-off between prediction precision and learning stability in conventional heatmap regression methods. We apply the proposed method to the 3D CT image dataset collected at Sendai Kousei Hospital and show that it significantly improves the estimation error over existing methods and other loss functions. Our code is available on GitHub. | 翻訳日:2024-07-09 21:57:27 公開日:2024-07-06 |
# OmChat: 長いコンテキストとビデオ理解によるマルチモーダル言語モデルのトレーニング
OmChat: A Recipe to Train Multimodal Language Models with Strong Long Context and Video Understanding ( http://arxiv.org/abs/2407.04923v1 ) ライセンス: Link先を確認 | Tiancheng Zhao, Qianqian Zhang, Kyusong Lee, Peng Liu, Lu Zhang, Chunxin Fang, Jiajia Liao, Kelei Jiang, Yibo Ma, Ruochen Xu, | (参考訳) OmChatは、長いコンテキストやビデオ理解タスクの処理に優れるように設計されたモデルである。
OmChatの新しいアーキテクチャは、どのように異なる視覚入力が処理されるかを標準化し、より効率的で適応可能である。
ダイナミックな視覚符号化プロセスを使用して、様々な解像度の画像を効果的に処理し、さまざまな画質の細部をキャプチャする。
OmChatはアクティブなプログレッシブなマルチモーダル事前訓練戦略を利用し、長いコンテキストにおけるモデルの能力が徐々に向上し、全体的な能力が向上する。
トレーニング中に高品質なデータを選択することで、OmChatは最も関連性の高い情報的データポイントから学習する。
OmChatは、最大512Kのコンテキスト長をサポートすることで、複数の画像やビデオを含むタスクにおける有望なパフォーマンスを示し、これらのベンチマークでほとんどのオープンソースモデルを上回っている。
さらに、OmChatは、シングルイメージテキスト、マルチイメージテキストおよびビデオを含む複雑なマルチモーダルインプットを統一し、シングルイメージベンチマークで競合的なパフォーマンスを達成するためのプロンプト戦略を提案する。
モデルの性能をさらに評価するため,HaystackでTemporal Visual Needleというベンチマークデータセットを提案した。
このデータセットは、長いビデオ内で時間的視覚的詳細を理解するOmChatの能力を評価する。
分析では、OmChatの成功に寄与するいくつかの重要な要因として、任意のアスペクト高解像度のサポート、アクティブなプログレッシブ事前トレーニング戦略、高品質な教師付き微調整データセットを挙げている。
本報告では,OmChatの機能と視覚的理解における性能向上戦略について概説する。
We introduce OmChat, a model designed to excel in handling long contexts and video understanding tasks. OmChat's new architecture standardizes how different visual inputs are processed, making it more efficient and adaptable. It uses a dynamic vision encoding process to effectively handle images of various resolutions, capturing fine details across a range of image qualities. OmChat utilizes an active progressive multimodal pretraining strategy, which gradually increases the model's capacity for long contexts and enhances its overall abilities. By selecting high-quality data during training, OmChat learns from the most relevant and informative data points. With support for a context length of up to 512K, OmChat demonstrates promising performance in tasks involving multiple images and videos, outperforming most open-source models in these benchmarks. Additionally, OmChat proposes a prompting strategy for unifying complex multimodal inputs including single image text, multi-image text and videos, and achieving competitive performance on single-image benchmarks. To further evaluate the model's capabilities, we proposed a benchmark dataset named Temporal Visual Needle in a Haystack. This dataset assesses OmChat's ability to comprehend temporal visual details within long videos. Our analysis highlights several key factors contributing to OmChat's success: support for any-aspect high image resolution, the active progressive pretraining strategy, and high-quality supervised fine-tuning datasets. This report provides a detailed overview of OmChat's capabilities and the strategies that enhance its performance in visual understanding. | 翻訳日:2024-07-09 21:57:27 公開日:2024-07-06 |
# RAMO: MOOCsレコメンデーションの強化のための検索拡張ジェネレーション
RAMO: Retrieval-Augmented Generation for Enhancing MOOCs Recommendations ( http://arxiv.org/abs/2407.04925v1 ) ライセンス: Link先を確認 | Jiarui Rao, Jionghao Lin, | (参考訳) 大規模オープンオンラインコース(MOOC)は、幅広いコースを提供し、地理、金融、時間に関連する伝統的な障壁を壊すことで、教育的アクセシビリティを著しく向上させた。
しかし、特に新しい研究分野を探索する際、学生は広大なコースの選択をナビゲートする困難に直面していることが多い。
この課題によって、研究者たちは、個々の学習の好みやキャリアの願望に合わせて、調整されたガイダンスを提供するために、コースレコメンデーションシステムを模索してきた。
これらのシステムでは,新規ユーザの‘コールドスタート’問題に効果的に対処する上で,特に課題に直面している。
近年のレコメンデーションシステムの進歩は、パーソナライズされたレコメンデーションを強化し、‘コールドスタート’問題に対処するために、大規模言語モデル(LLM)をレコメンデーションプロセスに統合することを推奨している。
そこで本研究では,従来のコースレコメンデータシステムにおける「コールドスタート」の課題を克服するためのシステムであるRAMO(Retrieval-Augmented Generation for MOOCs)を紹介した。
RAMOシステムは、LLMの能力と、Retrieval-Augmented Generation (RAG)に精通した文脈理解を活用して、eラーニング体験の向上を目的とした会話インターフェースを通じてコースレコメンデーションを提供する。
Massive Open Online Courses (MOOCs) have significantly enhanced educational accessibility by offering a wide variety of courses and breaking down traditional barriers related to geography, finance, and time. However, students often face difficulties navigating the vast selection of courses, especially when exploring new fields of study. Driven by this challenge, researchers have been exploring course recommender systems to offer tailored guidance that aligns with individual learning preferences and career aspirations. These systems face particular challenges in effectively addressing the ``cold start'' problem for new users. Recent advancements in recommender systems suggest integrating large language models (LLMs) into the recommendation process to enhance personalized recommendations and address the ``cold start'' problem. Motivated by these advancements, our study introduces RAMO (Retrieval-Augmented Generation for MOOCs), a system specifically designed to overcome the ``cold start'' challenges of traditional course recommender systems. The RAMO system leverages the capabilities of LLMs, along with Retrieval-Augmented Generation (RAG)-facilitated contextual understanding, to provide course recommendations through a conversational interface, aiming to enhance the e-learning experience. | 翻訳日:2024-07-09 21:57:27 公開日:2024-07-06 |
# JDT3D:LiDARに基づくトラッキング・バイ・アテンションにおけるギャップへの対処
JDT3D: Addressing the Gaps in LiDAR-Based Tracking-by-Attention ( http://arxiv.org/abs/2407.04926v1 ) ライセンス: Link先を確認 | Brian Cheong, Jiachen Zhou, Steven Waslander, | (参考訳) 自動走行のための3Dトラッキングベンチマークにおいて、トラッキング・バイ・検出(TBD)法は最先端のパフォーマンスを達成する。
一方、トラッキング・バイ・アテンション(TBA)法はTBD法よりも優れている可能性があり、特に長時間の閉塞や検出設定の難しさが高い。
本研究では,LiDARを用いたジョイント検出器とJDT3Dを用いたTBD法におけるTBA法の性能低下について検討した。
本稿では,TBD と TBA のギャップを埋める2つの一般化可能な手法を提案する。
JDT3DはnuScenesデータセットでトレーニングされ評価され、nuScenesテストセットでAMOTAメトリックで0.574を達成し、既存のLiDARベースのTBAアプローチを6%以上上回っている。
この結果に基づき,既存のTBAモデル定式化における潜在的な課題について考察し,TBD手法による性能の相違について述べる。
JDT3Dの実装は以下のリンクで見ることができる。
Tracking-by-detection (TBD) methods achieve state-of-the-art performance on 3D tracking benchmarks for autonomous driving. On the other hand, tracking-by-attention (TBA) methods have the potential to outperform TBD methods, particularly for long occlusions and challenging detection settings. This work investigates why TBA methods continue to lag in performance behind TBD methods using a LiDAR-based joint detector and tracker called JDT3D. Based on this analysis, we propose two generalizable methods to bridge the gap between TBD and TBA methods: track sampling augmentation and confidence-based query propagation. JDT3D is trained and evaluated on the nuScenes dataset, achieving 0.574 on the AMOTA metric on the nuScenes test set, outperforming all existing LiDAR-based TBA approaches by over 6%. Based on our results, we further discuss some potential challenges with the existing TBA model formulation to explain the continued gap in performance with TBD methods. The implementation of JDT3D can be found at the following link: https://github.com/TRAILab/JDT3D. | 翻訳日:2024-07-09 21:57:27 公開日:2024-07-06 |
# ブラッグ原子アレイを用いた導波路QEDの集団透過と吸収
Collectively induced transparency and absorption in waveguide QED with Bragg atom arrays ( http://arxiv.org/abs/2407.04927v1 ) ライセンス: Link先を確認 | Haolei Cheng, Wei Nie, | (参考訳) サブラディアント状態やスーパーラディアント状態のような集合量子状態は、多体量子系における光学応答を制御するのに有用である。
本研究では、導波路結合ブラッグ原子アレイの非均一周波数における新しい集団量子現象について検討する。
自由空間散逸のない原子では、サブラジアント状態と超ラジアント状態の間の破壊的な量子干渉によって集合的に誘導される透明性が生じる。
大きなブラッグ原子配列では、異なる周波数の原子を考慮し、多周波光子透過性を得ることができる。
興味深いことに、光子輸送に対する自由空間散逸の影響を研究した結果、総括吸収(CIA)が発見された。
可変原子周波数は、サブラジアント状態の崩壊率を非自明に修正する。
亜ラジカル状態の崩壊速度が自由空間の散逸と等しいとき、光子吸収は一定の周波数で限界に達する。
言い換えれば、光子吸収は、以前の光子検出方式とは異なる、低い自由空間の散逸によって増強される。
また,原子周波数を適切に調整して多周波CIAを示す。
我々の研究は、導波路QED系における集合量子状態とエキゾチック光学特性を操作する方法を示す。
Collective quantum states, such as subradiant and superradiant states, are useful for controlling optical responses in many-body quantum systems. In this work, we study novel collective quantum phenomena in waveguide-coupled Bragg atom arrays with inhomogeneous frequencies. For atoms without free-space dissipation, collectively induced transparency is produced by destructive quantum interference between subradiant and superradiant states. In a large Bragg atom array, multi-frequency photon transparency can be obtained by considering atoms with different frequencies. Interestingly, we find collectively induced absorption (CIA) by studying the influence of free-space dissipation on photon transport. Tunable atomic frequencies nontrivially modify decay rates of subradiant states. When the decay rate of a subradiant state equals to the free-space dissipation, photon absorption can reach a limit at a certain frequency. In other words, photon absorption is enhanced with low free-space dissipation, distinct from previous photon detection schemes. We also show multi-frequency CIA by properly adjusting atomic frequencies. Our work presents a way to manipulate collective quantum states and exotic optical properties in waveguide QED systems. | 翻訳日:2024-07-09 21:57:27 公開日:2024-07-06 |
# CLIPVQA:CLIPによるビデオ品質評価
CLIPVQA:Video Quality Assessment via CLIP ( http://arxiv.org/abs/2407.04928v1 ) ライセンス: Link先を確認 | Fengchuang Xing, Mingjie Li, Yuan-Gen Wang, Guopu Zhu, Xiaochun Cao, | (参考訳) Webスケールデータから視覚言語表現を学習する際、多くの視覚タスクにおいて対照的な言語画像事前学習(CLIP)機構が顕著な性能を示した。
しかし,ビデオ品質評価(VQA)タスクへの適用は依然として未解決の課題である。
本稿では,VQA問題(CLIPVQA)に対する効率よく効果的なCLIPベースのトランスフォーマー手法を提案する。
具体的には,ビデオフレーム間の時間的品質とコンテンツ情報の豊富な抽出を目的とした,効果的な映像フレーム認識パラダイムを最初に設計する。
そして、自己認識機構を用いて時空間品質特徴を適切に統合し、映像レベルの品質表現を得る。
ビデオの高品質な言語記述を監督に活用するために,CLIPベースの言語埋め込みエンコーダを開発し,映像言語表現を生成するためのクロスアテンションモジュールを通じて生成したコンテンツ情報と完全に集約する。
最後に、映像品質と映像言語表現を融合させて最終映像品質予測を行い、ベクトル化回帰損失を用いて効率的なエンドツーエンド最適化を行う。
CLIPVQAの性能を評価するため、多彩な解像度の8つのWildビデオデータセットに対して総合的な実験を行った。
実験結果から,提案したCLIPVQAは,既存のベンチマークVQA法よりも37%,新しい最先端のVQA性能を実現していることがわかった。
CLIPVQAにおける各モジュールの有効性を検証するための一連のアブレーション研究も行われている。
In learning vision-language representations from web-scale data, the contrastive language-image pre-training (CLIP) mechanism has demonstrated a remarkable performance in many vision tasks. However, its application to the widely studied video quality assessment (VQA) task is still an open issue. In this paper, we propose an efficient and effective CLIP-based Transformer method for the VQA problem (CLIPVQA). Specifically, we first design an effective video frame perception paradigm with the goal of extracting the rich spatiotemporal quality and content information among video frames. Then, the spatiotemporal quality features are adequately integrated together using a self-attention mechanism to yield video-level quality representation. To utilize the quality language descriptions of videos for supervision, we develop a CLIP-based encoder for language embedding, which is then fully aggregated with the generated content information via a cross-attention module for producing video-language representation. Finally, the video-level quality and video-language representations are fused together for final video quality prediction, where a vectorized regression loss is employed for efficient end-to-end optimization. Comprehensive experiments are conducted on eight in-the-wild video datasets with diverse resolutions to evaluate the performance of CLIPVQA. The experimental results show that the proposed CLIPVQA achieves new state-of-the-art VQA performance and up to 37% better generalizability than existing benchmark VQA methods. A series of ablation studies are also performed to validate the effectiveness of each module in CLIPVQA. | 翻訳日:2024-07-09 21:57:27 公開日:2024-07-06 |
# SAM-Med3D-MoE:3次元医用画像セグメンテーションのためのエキスパートの混合による非予測セグメンテーションモデルに向けて
SAM-Med3D-MoE: Towards a Non-Forgetting Segment Anything Model via Mixture of Experts for 3D Medical Image Segmentation ( http://arxiv.org/abs/2407.04938v1 ) ライセンス: Link先を確認 | Guoan Wang, Jin Ye, Junlong Cheng, Tianbin Li, Zhaolin Chen, Jianfei Cai, Junjun He, Bohan Zhuang, | (参考訳) ボリューム・メディカル・イメージ・セグメンテーションは、疾患の診断、治療計画の強化、医学研究の進展に重要な役割を担っている。
SAM-Med3DやSegVolのような既存の医用画像セグメンテーションのためのボリューム基盤モデルは、一般的な臓器や腫瘍に対して顕著な性能を示してきたが、臨床下流のタスクにおいて特定のカテゴリをセグメント化できる能力は依然として限られている。
そこで本研究では,タスク固有の微調整モデルを基本モデルとシームレスに統合し,追加ゲーティングネットワークのための最小限のトレーニングコストで統一モデルを作成する新しいフレームワークであるSAM-Med3D-MoEを提案する。
このゲーティングネットワークは、選択戦略とともに、各タスクにおける元のモデルと同等の性能を、パラメータを更新することなく、一般と特殊の両方で達成し、我々の総合的な実験では、Diceのパフォーマンスが15種類のクラスで平均53から56.4に向上するSAM-Med3D-MoEの有効性を実証している。
特に脊髄では29.6、8.5、11.2、食道では11.2、右股関節では顕著に上昇する。
さらに、挑戦的なSPPIN2023チャレンジで48.9Diceを達成し、一般専門家のパフォーマンス32.3を大きく上回った。
我々はSAM-Med3D-MoEが医療画像解析の特定の領域に基礎モデルを適用するための新しい枠組みとして機能することを期待している。
コードとデータセットが公開される。
Volumetric medical image segmentation is pivotal in enhancing disease diagnosis, treatment planning, and advancing medical research. While existing volumetric foundation models for medical image segmentation, such as SAM-Med3D and SegVol, have shown remarkable performance on general organs and tumors, their ability to segment certain categories in clinical downstream tasks remains limited. Supervised Finetuning (SFT) serves as an effective way to adapt such foundation models for task-specific downstream tasks but at the cost of degrading the general knowledge previously stored in the original foundation model.To address this, we propose SAM-Med3D-MoE, a novel framework that seamlessly integrates task-specific finetuned models with the foundational model, creating a unified model at minimal additional training expense for an extra gating network. This gating network, in conjunction with a selection strategy, allows the unified model to achieve comparable performance of the original models in their respective tasks both general and specialized without updating any parameters of them.Our comprehensive experiments demonstrate the efficacy of SAM-Med3D-MoE, with an average Dice performance increase from 53 to 56.4 on 15 specific classes. It especially gets remarkable gains of 29.6, 8.5, 11.2 on the spinal cord, esophagus, and right hip, respectively. Additionally, it achieves 48.9 Dice on the challenging SPPIN2023 Challenge, significantly surpassing the general expert's performance of 32.3. We anticipate that SAM-Med3D-MoE can serve as a new framework for adapting the foundation model to specific areas in medical image analysis. Codes and datasets will be publicly available. | 翻訳日:2024-07-09 21:57:27 公開日:2024-07-06 |
# ベクトル量子化における埋め込み数と次元のバランス
Balance of Number of Embedding and their Dimensions in Vector Quantization ( http://arxiv.org/abs/2407.04939v1 ) ライセンス: Link先を確認 | Hang Chen, Sankepally Sainath Reddy, Ziwei Chen, Dianbo Liu, | (参考訳) 埋め込みの次元と利用可能な埋め込み数(コードブックサイズとも呼ばれる)はベクトル量子化(VQ)の性能に影響を与える重要な要因であり、ベクトル量子化変分オートエンコーダ(VQ-VAE)アーキテクチャのような多くのモデルで使われる離散化プロセスである。
本研究は,製品定数を維持しつつ,VQにおけるコードブックサイズと埋め込み寸法のバランスについて検討する。
従来,これらのハイパーパラメータはトレーニング中は静的であるが,コードブックサイズを増大させると同時に埋め込み次元を小さくすることで,VQ-VAEの有効性を著しく向上させる可能性が示唆された。
結果として、離散的なコードブック空間の容量を保ちながら、コードブックサイズと埋め込み次元の戦略的選択が重要である。
そこで本研究では,Gumbel-Softmax機構を基盤とした適応型動的量子化手法を提案する。
この動的離散化器は、VQ-VAEに顕著な柔軟性を与える。
複数のベンチマークデータセットにまたがる実験的な評価は、我々のアプローチによって達成された顕著な性能向上を実証し、モデル性能を改善するための適応的動的量子化の有意義な可能性を強調した。
The dimensionality of the embedding and the number of available embeddings ( also called codebook size) are critical factors influencing the performance of Vector Quantization(VQ), a discretization process used in many models such as the Vector Quantized Variational Autoencoder (VQ-VAE) architecture. This study examines the balance between the codebook sizes and dimensions of embeddings in VQ, while maintaining their product constant. Traditionally, these hyper parameters are static during training; however, our findings indicate that augmenting the codebook size while simultaneously reducing the embedding dimension can significantly boost the effectiveness of the VQ-VAE. As a result, the strategic selection of codebook size and embedding dimensions, while preserving the capacity of the discrete codebook space, is critically important. To address this, we propose a novel adaptive dynamic quantization approach, underpinned by the Gumbel-Softmax mechanism, which allows the model to autonomously determine the optimal codebook configuration for each data instance. This dynamic discretizer gives the VQ-VAE remarkable flexibility. Thorough empirical evaluations across multiple benchmark datasets validate the notable performance enhancements achieved by our approach, highlighting the significant potential of adaptive dynamic quantization to improve model performance. | 翻訳日:2024-07-09 21:57:27 公開日:2024-07-06 |
# 網膜血管樹抽出のための資源拘束型U-Net
Resource Constrained U-Net for Extraction of Retinal Vascular Trees ( http://arxiv.org/abs/2407.04940v1 ) ライセンス: Link先を確認 | Georgiy Kiselev, | (参考訳) 本稿では,ヒト眼底写真に対する血管内皮マスク抽出のためのU-Net構造の改良の有効性を示す。
限られた計算資源とトレーニングデータについて、提案手法は最先端の手法と比較してわずかに性能が劣る。
This paper demonstrates the efficacy of a modified U-Net structure for the extraction of vascular tree masks for human fundus photographs. On limited compute resources and training data, the proposed model only slightly underperforms when compared to state of the art methods. | 翻訳日:2024-07-09 21:57:27 公開日:2024-07-06 |
# FOSP:世界モデルによる極細調整のオフライン安全政策
FOSP: Fine-tuning Offline Safe Policy through World Models ( http://arxiv.org/abs/2407.04942v1 ) ライセンス: Link先を確認 | Chenyang Cao, Yucheng Xin, Silang Wu, Longxiang He, Zichen Yan, Junbo Tan, Xueqian Wang, | (参考訳) モデルに基づく強化学習(RL)は、高次元タスクを扱う訓練効率と能力を示した。
安全性の問題に関して、安全なモデルベースのRLは、ほぼゼロコストのパフォーマンスを実現し、パフォーマンスと安全性のトレードオフを効果的に管理できる。
それでも、以前の作業は、実際の展開におけるオンライン探索のために、依然として安全上の課題を生んでいる。
この問題に対処するため、いくつかのオフラインRLメソッドがソリューションとして登場し、環境とのインタラクションを回避して、静的データセットから安全な方法で学習している。
本稿では、オフラインで訓練されたポリシーを微調整することで、視覚に基づくロボットタスクの展開段階における安全性をさらに向上することを目的とする。
サンプル内最適化、モデルベースのポリシー拡張、リーチビリティガイダンスを導入し、安全なオフライン・オンライン・フレームワークを構築する。
さらに,本手法は,未確認の安全制約シナリオにおけるオフラインポリシーの一般化を実証する。
最後に,5つの視覚のみのタスクと実際のロボットを用いたシミュレーションベンチマークにおいて,限られたデータを用いた配置問題の解法により,本手法の有効性を検証した。
Model-based Reinforcement Learning (RL) has shown its high training efficiency and capability of handling high-dimensional tasks. Regarding safety issues, safe model-based RL can achieve nearly zero-cost performance and effectively manage the trade-off between performance and safety. Nevertheless, prior works still pose safety challenges due to the online exploration in real-world deployment. To address this, some offline RL methods have emerged as solutions, which learn from a static dataset in a safe way by avoiding interactions with the environment. In this paper, we aim to further enhance safety during the deployment stage for vision-based robotic tasks by fine-tuning an offline-trained policy. We incorporate in-sample optimization, model-based policy expansion, and reachability guidance to construct a safe offline-to-online framework. Moreover, our method proves to improve the generalization of offline policy in unseen safety-constrained scenarios. Finally, the efficiency of our method is validated on simulation benchmarks with five vision-only tasks and a real robot by solving some deployment problems using limited data. | 翻訳日:2024-07-09 21:47:42 公開日:2024-07-06 |
# YOLOv7の量子化に関する総合的研究
Quantizing YOLOv7: A Comprehensive Study ( http://arxiv.org/abs/2407.04943v1 ) ライセンス: Link先を確認 | Mohammadamin Baghbanbashi, Mohsen Raji, Behnam Ghavami, | (参考訳) YOLOはディープニューラルネットワーク(DNN)モデルで、1段階の推論アプローチに従って、堅牢なリアルタイムオブジェクト検出を実現する。
他のリアルタイム物体検出器よりも、速度と精度が広いマージンで優れています。
それでも、YOLOは多数のパラメータを持つDNNバックボーン上に開発されたため、過剰なメモリ負荷を発生させ、メモリ制限されたデバイスにデプロイすることは、実際には深刻な課題である。
この制限を克服するために、パラメータを低い精度の値に定量化するといったモデル圧縮技術を採用することができる。
YOLOの最新のバージョンとして、YOLOv7は5 FPSから160 FPSの範囲で最先端のパフォーマンスを達成し、YOLOや他の既存のモデルに勝っている。
これまでのところ、いくつかの量子化スキームのロバスト性は、YOLOの古いバージョンで評価されている。
これらの手法は、異なるアーキテクチャを使用するため、必ずしもYOLOv7に類似した結果をもたらすとは限らない。
本稿では,最先端のYOLOv7モデルの事前学習重量に対する様々な量子化スキームの有効性について詳細に検討する。
実験の結果、異なる粒度の組合せと組み合わせた4ビット量子化を用いることで、それぞれ3.92xと3.86xのメモリ節約が可能となり、全精度ベースラインモデルと比較して2.5%と1%の精度の損失しか得られなかった。
YOLO is a deep neural network (DNN) model presented for robust real-time object detection following the one-stage inference approach. It outperforms other real-time object detectors in terms of speed and accuracy by a wide margin. Nevertheless, since YOLO is developed upon a DNN backbone with numerous parameters, it will cause excessive memory load, thereby deploying it on memory-constrained devices is a severe challenge in practice. To overcome this limitation, model compression techniques, such as quantizing parameters to lower-precision values, can be adopted. As the most recent version of YOLO, YOLOv7 achieves such state-of-the-art performance in speed and accuracy in the range of 5 FPS to 160 FPS that it surpasses all former versions of YOLO and other existing models in this regard. So far, the robustness of several quantization schemes has been evaluated on older versions of YOLO. These methods may not necessarily yield similar results for YOLOv7 as it utilizes a different architecture. In this paper, we conduct in-depth research on the effectiveness of a variety of quantization schemes on the pre-trained weights of the state-of-the-art YOLOv7 model. Experimental results demonstrate that using 4-bit quantization coupled with the combination of different granularities results in ~3.92x and ~3.86x memory-saving for uniform and non-uniform quantization, respectively, with only 2.5% and 1% accuracy loss compared to the full-precision baseline model. | 翻訳日:2024-07-09 21:47:42 公開日:2024-07-06 |
# 微分私的U統計について
On Differentially Private U Statistics ( http://arxiv.org/abs/2407.04945v1 ) ライセンス: Link先を確認 | Kamalika Chaudhuri, Po-Ling Loh, Shourya Pandey, Purnamrita Sarkar, | (参考訳) パラメータ $\mathbb{E}[h(X_1,\dots,X_k)]$, ここで、$X_1$, $X_2$, $\dots$, $X_k$は、ある分布のデータであり、$h$は置換不変関数である。
プライバシ制約がなければ、標準推定器はU統計器であり、非パラメトリック符号付きランクテスト、対称性テスト、均一性テスト、ランダムネットワークにおけるサブグラフ数などを含む幅広い問題で一般的に発生し、緩やかな条件下では最小分散無バイアス推定器であることが示される。
近年、民間平均推定への関心が高まっているにもかかわらず、民営化のU統計学はほとんど注目されていない。
既存のプライベート平均推定アルゴリズムは信頼区間を得るために適用できるが、このアルゴリズムは、先行項における最適下限のプライベートエラー、例えば、定数係数のインフレーション、あるいは退化条件において$O(1/n^2)$よりも$\Theta(1/n)$にまで導くことができる。
これを改善するために、データの異なる部分集合を再重み付けするために \emph{local H\'ajek projections} を用いた新しいしきい値に基づくアプローチを提案する。
これは、非退化U統計に対してほぼ最適なプライベート誤差をもたらし、退化U統計に対してほぼ最適であることを示す強い指標となる。
We consider the problem of privately estimating a parameter $\mathbb{E}[h(X_1,\dots,X_k)]$, where $X_1$, $X_2$, $\dots$, $X_k$ are i.i.d. data from some distribution and $h$ is a permutation-invariant function. Without privacy constraints, standard estimators are U-statistics, which commonly arise in a wide range of problems, including nonparametric signed rank tests, symmetry testing, uniformity testing, and subgraph counts in random networks, and can be shown to be minimum variance unbiased estimators under mild conditions. Despite the recent outpouring of interest in private mean estimation, privatizing U-statistics has received little attention. While existing private mean estimation algorithms can be applied to obtain confidence intervals, we show that they can lead to suboptimal private error, e.g., constant-factor inflation in the leading term, or even $\Theta(1/n)$ rather than $O(1/n^2)$ in degenerate settings. To remedy this, we propose a new thresholding-based approach using \emph{local H\'ajek projections} to reweight different subsets of the data. This leads to nearly optimal private error for non-degenerate U-statistics and a strong indication of near-optimality for degenerate U-statistics. | 翻訳日:2024-07-09 21:47:42 公開日:2024-07-06 |
# FreeCompose: 拡散前のゼロショット画像合成
FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior ( http://arxiv.org/abs/2407.04947v1 ) ライセンス: Link先を確認 | Zhekai Chen, Wen Wang, Zhen Yang, Zeqing Yuan, Hao Chen, Chunhua Shen, | (参考訳) 我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
外観編集(画像調和)や意味編集(セマンティック画像合成)といった特定のユースケースに集中するのではなく、大規模事前学習拡散モデルに特有な強力な生成機能を活用し、両方のシナリオに適用可能な汎用画像合成を実現する可能性を示す。
事前学習した拡散モデルでは, 単純なコピーペースト境界領域を低密度領域として自動的に識別する。
本稿では, この知見に基づいて, 先行拡散によって導かれる高密度領域に対する合成画像の最適化を提案する。
さらに、フレキシブルなセマンティック画像合成を可能にするために、新しいマスク誘導損失を導入する。
総合的なゼロショット画像合成におけるアプローチの優位性を検証した。
さらに,本手法は,オブジェクトの削除やマルチコンセプトのカスタマイズなど,様々なタスクにおいて有望な可能性を示す。
We offer a novel approach to image composition, which integrates multiple input images into a single, coherent image. Rather than concentrating on specific use cases such as appearance editing (image harmonization) or semantic editing (semantic image composition), we showcase the potential of utilizing the powerful generative prior inherent in large-scale pre-trained diffusion models to accomplish generic image composition applicable to both scenarios. We observe that the pre-trained diffusion models automatically identify simple copy-paste boundary areas as low-density regions during denoising. Building on this insight, we propose to optimize the composed image towards high-density regions guided by the diffusion prior. In addition, we introduce a novel maskguided loss to further enable flexible semantic image composition. Extensive experiments validate the superiority of our approach in achieving generic zero-shot image composition. Additionally, our approach shows promising potential in various tasks, such as object removal and multiconcept customization. | 翻訳日:2024-07-09 21:47:42 公開日:2024-07-06 |
# 優れた例によるゼロショットオブジェクトカウント
Zero-shot Object Counting with Good Exemplars ( http://arxiv.org/abs/2407.04948v1 ) ライセンス: Link先を確認 | Huilin Zhu, Jingling Yuan, Zhengwei Yang, Yu Guo, Zheng Wang, Xian Zhong, Shengfeng He, | (参考訳) Zero-shot Object counting (ZOC)は、テスト中のオブジェクトクラス名のみを使用して、手動のアノテーションを必要とせずに、イメージ内のオブジェクトを列挙することを目的としている。
しかし、現在のZOC法における重要な課題は、高品質な模範を効果的に識別できないことである。
この欠如は、様々なクラスにわたるスケーラビリティを損なうとともに、識別されたクラスと画像の内容との間の強力な視覚的関連の発達を損なう。
この目的のために,視覚アソシエーションに基づくゼロショットオブジェクトカウント(VA-Count)フレームワークを提案する。
VA-Count は Exemplar Enhancement Module (EEM) と Noise Suppression Module (NSM) から構成される。
EEMは、先進的な視覚言語保持モデルを使用して、潜在的な先例を発見し、フレームワークの様々なクラスへの適応性を保証する。
一方、NSMは、最適対と準最適対を区別するために対照的な学習を採用し、誤対の負の効果を減少させる。
VA-Countは、2つのオブジェクトカウントデータセット上で優れたパフォーマンスを持つゼロショットコンテキストにおいて、その有効性とスケーラビリティを実証する。
Zero-shot object counting (ZOC) aims to enumerate objects in images using only the names of object classes during testing, without the need for manual annotations. However, a critical challenge in current ZOC methods lies in their inability to identify high-quality exemplars effectively. This deficiency hampers scalability across diverse classes and undermines the development of strong visual associations between the identified classes and image content. To this end, we propose the Visual Association-based Zero-shot Object Counting (VA-Count) framework. VA-Count consists of an Exemplar Enhancement Module (EEM) and a Noise Suppression Module (NSM) that synergistically refine the process of class exemplar identification while minimizing the consequences of incorrect object identification. The EEM utilizes advanced vision-language pretaining models to discover potential exemplars, ensuring the framework's adaptability to various classes. Meanwhile, the NSM employs contrastive learning to differentiate between optimal and suboptimal exemplar pairs, reducing the negative effects of erroneous exemplars. VA-Count demonstrates its effectiveness and scalability in zero-shot contexts with superior performance on two object counting datasets. | 翻訳日:2024-07-09 21:47:42 公開日:2024-07-06 |
# フェデレーションを超えて: クライアントの見当たらない一般化のためのトポロジを意識したフェデレーション学習
Beyond the Federation: Topology-aware Federated Learning for Generalization to Unseen Clients ( http://arxiv.org/abs/2407.04949v1 ) ライセンス: Link先を確認 | Mengmeng Ma, Tang Li, Xi Peng, | (参考訳) フェデレートラーニングは、分散センシティブなデータに取り組むために広く利用されている。
既存の手法は主にフェデレーション内のデータ不均一性に対処することに焦点を当てている。
しかし, オフ・オブ・フェデレーション(OOF)の一般化のために, 未確認のクライアントに適用した場合, 性能劣化が著しいことが判明した。
目に見えないクライアントへの一般化に対処する最近の試みは、一般的に、通信や計算コストが高いため、大規模分散設定にスケールアップするのに苦労している。
さらに、よくスケールする手法は、しばしば一般化能力の貧弱さを示す。
OOF-レジリエンスをスケーラブルな方法で実現するために、クライアントトポロジ(クライアント関係を表すグラフ)を活用するTFL(Topology-aware Federated Learning)を提案し、OOFデータに対して堅牢なモデルを効果的にトレーニングする。
クライアントトポロジ学習(クライアントトポロジ学習)と学習したトポロジを利用して、影響力のあるクライアントを特定し、その情報をFL最適化プロセスに活用し、堅牢なモデルを効率的に構築する学習(クライアントトポロジ学習)である。
様々な実世界のデータセットに対する実証的な評価は、TFLの優れたOOF堅牢性とスケーラビリティを検証する。
Federated Learning is widely employed to tackle distributed sensitive data. Existing methods primarily focus on addressing in-federation data heterogeneity. However, we observed that they suffer from significant performance degradation when applied to unseen clients for out-of-federation (OOF) generalization. The recent attempts to address generalization to unseen clients generally struggle to scale up to large-scale distributed settings due to high communication or computation costs. Moreover, methods that scale well often demonstrate poor generalization capability. To achieve OOF-resiliency in a scalable manner, we propose Topology-aware Federated Learning (TFL) that leverages client topology - a graph representing client relationships - to effectively train robust models against OOF data. We formulate a novel optimization problem for TFL, consisting of two key modules: Client Topology Learning, which infers the client relationships in a privacy-preserving manner, and Learning on Client Topology, which leverages the learned topology to identify influential clients and harness this information into the FL optimization process to efficiently build robust models. Empirical evaluation on a variety of real-world datasets verifies TFL's superior OOF robustness and scalability. | 翻訳日:2024-07-09 21:47:42 公開日:2024-07-06 |
# 視覚言語モデルを用いた位置情報の粒度プライバシ制御
Granular Privacy Control for Geolocation with Vision Language Models ( http://arxiv.org/abs/2407.04952v1 ) ライセンス: Link先を確認 | Ethan Mendes, Yang Chen, James Hays, Sauvik Das, Wei Xu, Alan Ritter, | (参考訳) 視覚言語モデル(VLM)は、情報検索の質問に答える能力において急速に進歩している。
これらのモデルはコンシューマー向けアプリケーションに広くデプロイされているため、写真内の人物を特定したり、画像の位置を測ったりすることで、新たなプライバシーリスクにつながる可能性がある。
驚くべきことに、現在のオープンソースおよびプロプライエタリなVLMは、非常に有能な画像測位器であり、VLMによる広範な位置情報は、単なる理論的な将来的な懸念ではなく、すぐにプライバシー上のリスクとなる。
この課題に対処する第一歩として,ユーザとの位置情報対話を適度に行うVLMの能力をテストするため,新しいベンチマークであるGPTGeoChatを開発した。
室内アノテータとGPT-4v間の1,000の画像位置情報の会話を収集し、各ターンに表示される位置情報の粒度にアノテートする。
新たなデータセットを用いて、位置情報が多すぎるかどうかを判断することで、様々なVLMがGPT-4vの位置情報通信を適度に行う能力を評価する。
カスタムの微調整モデルは、国や都市レベルで漏洩した位置情報を特定する際に、誘導されたAPIベースのモデルと同等に動作するが、レストランや建物の名前など、より細かい粒度を正確に調整するためには、教師付きデータによる微調整が必要である。
Vision Language Models (VLMs) are rapidly advancing in their capability to answer information-seeking questions. As these models are widely deployed in consumer applications, they could lead to new privacy risks due to emergent abilities to identify people in photos, geolocate images, etc. As we demonstrate, somewhat surprisingly, current open-source and proprietary VLMs are very capable image geolocators, making widespread geolocation with VLMs an immediate privacy risk, rather than merely a theoretical future concern. As a first step to address this challenge, we develop a new benchmark, GPTGeoChat, to test the ability of VLMs to moderate geolocation dialogues with users. We collect a set of 1,000 image geolocation conversations between in-house annotators and GPT-4v, which are annotated with the granularity of location information revealed at each turn. Using this new dataset, we evaluate the ability of various VLMs to moderate GPT-4v geolocation conversations by determining when too much location information has been revealed. We find that custom fine-tuned models perform on par with prompted API-based models when identifying leaked location information at the country or city level; however, fine-tuning on supervised data appears to be needed to accurately moderate finer granularities, such as the name of a restaurant or building. | 翻訳日:2024-07-09 21:47:42 公開日:2024-07-06 |
# Effective-LDAM:ロバスト胸部X線疾患分類のためのデータ不均衡を軽減する効果的なロス関数
Effective-LDAM: An Effective Loss Function To Mitigate Data Imbalance for Robust Chest X-Ray Disease Classification ( http://arxiv.org/abs/2407.04953v1 ) ライセンス: Link先を確認 | Sree Rama Vamsidhar S, Bhargava Satya, Rama Krishna Gorthi, | (参考訳) ディープラーニング(DL)アプローチは、疾患診断のための医用画像で注目されている。
胸部X線(CXR)分類は,各種疾患の検出に有効な方法である。
これらの方法のうち、胸部X線分類(CXR)は様々な疾患の検出と解析に有効な方法であることが証明されている。
しかし、DL分類アルゴリズムの信頼性は、大規模でバランスの取れたデータセットへのアクセスに依存するため、すべての疾患カテゴリで十分なデータを取得することが不可能なため、医療画像に課題が生じる。
この問題に対処するため,E-LDAM (E-Label Distribution Aware Margin) と呼ばれるアルゴリズム中心の手法を提案し,各クラスにおける有効サンプル数を用いて,広く採用されているラベル配信アウェア・マージン(LDAM)損失関数のマージンを変更する。
COVIDx CXRデータセットの実験的評価は、正常、肺炎、およびCOVID-19分類に焦点を当てている。
実験結果は、CXR画像予測において、マイノリティークラス(COVID-19)に対する顕著なリコールスコア97.81%を達成し、提案したE-LDAMアプローチの有効性を示す。
さらに、3クラス分類タスクの全体的な精度は95.26%という印象的な水準に達している。
Deep Learning (DL) approaches have gained prominence in medical imaging for disease diagnosis. Chest X-ray (CXR) classification has emerged as an effective method for detecting various diseases. Among these methodologies, Chest X-ray (CXR) classification has proven to be an effective approach for detecting and analyzing various diseases. However, the reliable performance of DL classification algorithms is dependent upon access to large and balanced datasets, which pose challenges in medical imaging due to the impracticality of acquiring sufficient data for every disease category. To tackle this problem, we propose an algorithmic-centric approach called Effective-Label Distribution Aware Margin (E-LDAM), which modifies the margin of the widely adopted Label Distribution Aware Margin (LDAM) loss function using an effective number of samples in each class. Experimental evaluations on the COVIDx CXR dataset focus on Normal, Pneumonia, and COVID-19 classification. The experimental results demonstrate the effectiveness of the proposed E-LDAM approach, achieving a remarkable recall score of 97.81% for the minority class (COVID-19) in CXR image prediction. Furthermore, the overall accuracy of the three-class classification task attains an impressive level of 95.26%. | 翻訳日:2024-07-09 21:47:42 公開日:2024-07-06 |
# 学習モダリティによる非同期マルチモーダルビデオシーケンスフュージョン-排他的および非依存的表現
Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations ( http://arxiv.org/abs/2407.04955v1 ) ライセンス: Link先を確認 | Dingkang Yang, Mingcheng Li, Linhao Qu, Kun Yang, Peng Zhai, Song Wang, Lihua Zhang, | (参考訳) ビデオから人間の意図(例えば感情)を理解することは、最近かなりの注目を集めている。
ビデオストリームは一般的に、自然言語、表情、聴覚的手がかりなど、異なるモーダル性に由来する時間データのブレンドを構成する。
注意に基づくパラダイムによる先行研究の顕著な進歩にもかかわらず、本質的に時間的非同期性と不均一性の課題はマルチモーダルシーケンスの融合に残っており、パフォーマンスのボトルネックの原因となっている。
これらの課題に対処するために,モーダリティ学習のためのマルチモーダル融合手法を提案する。
一方、MEAは、モダリティ内の信頼性のあるコンテキストダイナミクスを捕捉し、モダリティ排他的空間上のユニークな特徴を補強する予測自己アテンションモジュールを導入している。
一方、階層的クロスモーダルアテンションモジュールは、モダリティ-非依存空間上のモダリティ間の価値ある要素相関を探索するために設計されている。
一方、異なる表現の対角的な生成を保証するために、二重識別器戦略が提示される。
最終的に、不均一なモダリティ間の知識交換を強化し、下流タスクの堅牢なマルチモーダル表現を学習する疎結合グラフ融合機構を提案する。
非同期シーケンスを持つ3つのマルチモーダルデータセット上で多数の実験を行う。
システム分析は我々のアプローチの必要性を示している。
Understanding human intentions (e.g., emotions) from videos has received considerable attention recently. Video streams generally constitute a blend of temporal data stemming from distinct modalities, including natural language, facial expressions, and auditory clues. Despite the impressive advancements of previous works via attention-based paradigms, the inherent temporal asynchrony and modality heterogeneity challenges remain in multimodal sequence fusion, causing adverse performance bottlenecks. To tackle these issues, we propose a Multimodal fusion approach for learning modality-Exclusive and modality-Agnostic representations (MEA) to refine multimodal features and leverage the complementarity across distinct modalities. On the one hand, MEA introduces a predictive self-attention module to capture reliable context dynamics within modalities and reinforce unique features over the modality-exclusive spaces. On the other hand, a hierarchical cross-modal attention module is designed to explore valuable element correlations among modalities over the modality-agnostic space. Meanwhile, a double-discriminator strategy is presented to ensure the production of distinct representations in an adversarial manner. Eventually, we propose a decoupled graph fusion mechanism to enhance knowledge exchange across heterogeneous modalities and learn robust multimodal representations for downstream tasks. Numerous experiments are implemented on three multimodal datasets with asynchronous sequences. Systematic analyses show the necessity of our approach. | 翻訳日:2024-07-09 21:47:42 公開日:2024-07-06 |
# エントロピーインフォームドウェイトチャネル正規化流れ
Entropy-Informed Weighting Channel Normalizing Flow ( http://arxiv.org/abs/2407.04958v1 ) ライセンス: Link先を確認 | Wei Chen, Shian Du, Shigui Li, Delu Zeng, John Paisley, | (参考訳) 正規化フロー(NF)は、正確な推定精度と効率的なサンプリングを提供する能力によって、深層生成モデルの間で人気を博している。
しかしながら、NFsの重大な制限は、入力空間のそれと等しい潜伏空間の次元を維持することから生じる、その実質的なメモリ要件である。
マルチスケールアーキテクチャはこの制限を回避し、潜在変数の次元を徐々に減らし、可逆性を確保する。
既存のマルチスケールアーキテクチャは、チャネルレベルで単純で静的な方法で潜伏変数を分割し、NFの表現力を妥協した。
この問題に対処するために、正規化および機能依存の$\mathtt{Shuffle}$演算を提案し、それをバニラマルチスケールアーキテクチャに統合する。
この演算はチャネルワイトをヒューリスティックに生成し、これらの重みで分割する前に遅延変数を適応的にシャッフルする。
このような操作はエントロピー増加方向の変数を誘導するので、$\mathtt{Shuffle}$演算を \emph{Entropy-Informed Weighting Channel Normalizing Flow} (EIW-Flow) と呼ぶ。
実験結果から,EIW-FlowはCIFAR-10,CelebA,ImageNetのデータセットに対して,計算オーバーヘッドを無視して,最先端の密度推定結果と同等のサンプル品質が得られることが示された。
Normalizing Flows (NFs) have gained popularity among deep generative models due to their ability to provide exact likelihood estimation and efficient sampling. However, a crucial limitation of NFs is their substantial memory requirements, arising from maintaining the dimension of the latent space equal to that of the input space. Multi-scale architectures bypass this limitation by progressively reducing the dimension of latent variables while ensuring reversibility. Existing multi-scale architectures split the latent variables in a simple, static manner at the channel level, compromising NFs' expressive power. To address this issue, we propose a regularized and feature-dependent $\mathtt{Shuffle}$ operation and integrate it into vanilla multi-scale architecture. This operation heuristically generates channel-wise weights and adaptively shuffles latent variables before splitting them with these weights. We observe that such operation guides the variables to evolve in the direction of entropy increase, hence we refer to NFs with the $\mathtt{Shuffle}$ operation as \emph{Entropy-Informed Weighting Channel Normalizing Flow} (EIW-Flow). Experimental results indicate that the EIW-Flow achieves state-of-the-art density estimation results and comparable sample quality on CIFAR-10, CelebA and ImageNet datasets, with negligible additional computational overhead. | 翻訳日:2024-07-09 21:47:42 公開日:2024-07-06 |
# データハイディングを用いたCSVファイルへのデジタル署名の埋め込み
Embedding Digital Signature into CSV Files Using Data Hiding ( http://arxiv.org/abs/2407.04959v1 ) ライセンス: Link先を確認 | Akinori Ito, | (参考訳) オープンデータは、オープンサイエンスとエビデンスベースの政策作成の重要な基盤である。
多くの国の政府は、政府関連統計を公開データとして公開している。
これらのデータの一部はCSVファイルとして提供される。
しかし、CSVファイルはプレーンテキストであるため、ダウンロードしたCSVファイルの整合性を保証することはできない。
データの完全性を証明する一般的な方法はデジタルシグネチャであるが、CSVファイルにシグネチャを埋め込むのは難しい。
本稿では,データ隠蔽技術を用いてデジタル署名をCSVファイルに埋め込む手法を提案する。
提案手法は、二重引用の使用に関連するCSVフォーマットの冗長性を利用する。
実験の結果、512ビットのシグネチャを実際のオープンデータCSVファイルに埋め込むことができた。
Open data is an important basis for open science and evidence-based policymaking. Governments of many countries disclose government-related statistics as open data. Some of these data are provided as CSV files. However, since CSV files are plain texts, we cannot ensure the integrity of a downloaded CSV file. A popular way to prove the data's integrity is a digital signature; however, it is difficult to embed a signature into a CSV file. This paper proposes a method for embedding a digital signature into a CSV file using a data hiding technique. The proposed method exploits a redundancy of the CSV format related to the use of double quotes. The experiment revealed we could embed a 512-bit signature into actual open data CSV files. | 翻訳日:2024-07-09 21:47:42 公開日:2024-07-06 |
# PRISMA-Driven Bibliometric Analysis of the Scientific Literature on Assurance Case Patterns
A PRISMA-Driven Bibliometric Analysis of the Scientific Literature on Assurance Case Patterns ( http://arxiv.org/abs/2407.04961v1 ) ライセンス: Link先を確認 | Oluwafemi Odu, Alvine Boaye Belle, Song Wang, Kimya Khakzad Shahandashti, | (参考訳) ミッションクリティカルなシステムの非機能要件(例えば、安全性、セキュリティ)の正しい実装を正当化することは、システム障害を防ぐために不可欠です。
後年、人の死や財政的損失など深刻な結果がもたらされた。
様々な安全クリティカルなシステムの要件を広く議論し、中継し、また、それらの認証をサポートするための産業標準の遵守を確認することができる構造化された議論である。
それでも、保証ケースの作成は通常、手動、エラーを起こし、時間を要する。
さらに、システムが進化するにつれて、多くの変更が伴う可能性がある。
保証ケースを作成する際のボトルネックを克服するため、既存のアプローチは通常、保証ケースの作成を支援するために共通の構造化されたエビデンスベースの議論(パターン)の再利用を促進する。
保証事例パターンの研究の進展を把握すべく,過去20年間に発行された92の初等研究の文献分析をSEGRESSに頼って実施した。
これにより、その分野の研究を特徴付ける進化の傾向とパターンを捉えることができる。
以上の結果から,ML対応システム(サイバーセキュリティ,倫理など)の保証を支援する新たな保証ケースパターンの出現が示唆された。
Justifying the correct implementation of the non-functional requirements (e.g., safety, security) of mission-critical systems is crucial to prevent system failure. The later could have severe consequences such as the death of people and financial losses. Assurance cases can be used to prevent system failure, They are structured arguments that allow arguing and relaying various safety-critical systems' requirements extensively as well as checking the compliance of such systems with industrial standards to support their certification. Still, the creation of assurance cases is usually manual, error-prone, and time-consuming. Besides, it may involve numerous alterations as the system evolves. To overcome the bottlenecks in creating assurance cases, existing approaches usually promote the reuse of common structured evidence-based arguments (i.e. patterns) to aid the creation of assurance cases. To gain insights into the advancements of the research on assurance case patterns, we relied on SEGRESS to conduct a bibliometric analysis of 92 primary studies published within the past two decades. This allows capturing the evolutionary trends and patterns characterizing the research in that field. Our findings notably indicate the emergence of new assurance case patterns to support the assurance of ML-enabled systems that are characterized by their evolving requirements (e.g., cybersecurity and ethics). | 翻訳日:2024-07-09 21:47:42 公開日:2024-07-06 |
# 因果デミススティフィケーションからみた文脈認識的感情認識のデバイアス
Towards Context-Aware Emotion Recognition Debiasing from a Causal Demystification Perspective via De-confounded Training ( http://arxiv.org/abs/2407.04963v1 ) ライセンス: Link先を確認 | Dingkang Yang, Kun Yang, Haopeng Kuang, Zhaoyu Chen, Yuzheng Wang, Lihua Zhang, | (参考訳) 多様な文脈から感情を理解することは、コンピュータビジョンコミュニティで広く注目を集めている。
コンテキスト認識感情認識(CAER)の中核となる哲学は、リッチな文脈情報を活用することによって、対象者の感情を認識するための貴重な意味的手がかりを提供することである。
現在のアプローチは、コンテキストから知覚的に重要な表現を抽出する洗練された構造を設計することに集中している。
それでも、長期にわたるジレンマは、既存のデータセットの厳しいコンテキストバイアスは、異なるコンテキスト間で感情状態のバランスの取れない分布をもたらし、バイアスのある視覚的表現学習を引き起こすというものである。
因果的デミススティフィケーションの観点から、有害なバイアスは、既存のモデルを誤認して、仮説推定に基づいて素早い相関を学習し、モデルの性能を制限した共同創設者として特定される。
この問題に対処するために、我々は因果推論を採用し、そのようなバイアスの影響からモデルを切り離し、カスタマイズされた因果グラフを通してCAERタスク内の変数間の因果関係を定式化する。
次に, モデルトレーニング中の因果関係の近似的効果を求めるために, バックドア調整理論に基づく共同設立者に対して, CCIM(Contextual Causal Intervention Module)を提案する。
プラグイン・アンド・プレイコンポーネントとして、CCIMは既存のアプローチと簡単に統合でき、大幅な改善がもたらされる。
3つのデータセットのシステム実験により,CCIMの有効性が示された。
Understanding emotions from diverse contexts has received widespread attention in computer vision communities. The core philosophy of Context-Aware Emotion Recognition (CAER) is to provide valuable semantic cues for recognizing the emotions of target persons by leveraging rich contextual information. Current approaches invariably focus on designing sophisticated structures to extract perceptually critical representations from contexts. Nevertheless, a long-neglected dilemma is that a severe context bias in existing datasets results in an unbalanced distribution of emotional states among different contexts, causing biased visual representation learning. From a causal demystification perspective, the harmful bias is identified as a confounder that misleads existing models to learn spurious correlations based on likelihood estimation, limiting the models' performance. To address the issue, we embrace causal inference to disentangle the models from the impact of such bias, and formulate the causalities among variables in the CAER task via a customized causal graph. Subsequently, we present a Contextual Causal Intervention Module (CCIM) to de-confound the confounder, which is built upon backdoor adjustment theory to facilitate seeking approximate causal effects during model training. As a plug-and-play component, CCIM can easily integrate with existing approaches and bring significant improvements. Systematic experiments on three datasets demonstrate the effectiveness of our CCIM. | 翻訳日:2024-07-09 21:47:42 公開日:2024-07-06 |
# ZOBNN: 量子化パラメータを持つ二元ニューラルネットワークのゼロオーバーヘッド依存設計
ZOBNN: Zero-Overhead Dependable Design of Binary Neural Networks with Deliberately Quantized Parameters ( http://arxiv.org/abs/2407.04964v1 ) ライセンス: Link先を確認 | Behnam Ghavami, Mohammad Shahidzadeh, Lesley Shannon, Steve Wilton, | (参考訳) ディープニューラルネットワーク(DNN)の低精度重みとアクティベーションは、ハードウェア効率の点で、その完全精度よりも優れています。
ネットワークパラメータが二項化される極端な場合(BNNなど)に、低精度な操作で実装される場合、量子化の2つの最もよく言及される利点は、メモリ消費の削減とより高速な推論プロセスである。
本稿では,低精度ニューラルネットワークの3番目の利点として,耐故障特性の改善について紹介する。
本稿では,メモリ障害がBNN(State-of-the-art binary neural network)に与える影響を包括的解析により検討する。
精度向上のために,BNNアーキテクチャに浮動小数点パラメータが組み込まれているにもかかわらず,BNNはメモリ障害に起因するパラメータの偏差に非常に敏感であることがわかった。
この決定的な発見を踏まえて,本研究では,新たな一様量子化手法により,フロートパラメータの範囲を制限することにより,BNNの信頼性を向上させる手法を提案する。
導入された量子化技術は、推論段階で計算オーバーヘッドを発生させることなく、BNNで使用される浮動小数点パラメータの割合を減少させる。
提案したBNNアーキテクチャ(ZOBNN)の広範な実験的故障シミュレーションにより,従来の浮動小数点DNNと比較して,ロバスト性が顕著に向上した。
特に、この改善は計算オーバーヘッドを発生させることなく達成される。
重要な点として、この拡張は計算オーバーヘッドを伴わない。
クリティカルエッジアプリケーションにおける \ToolName~excels は、計算資源が限られており、信頼性とリアルタイムパフォーマンスの両方を優先している。
Low-precision weights and activations in deep neural networks (DNNs) outperform their full-precision counterparts in terms of hardware efficiency. When implemented with low-precision operations, specifically in the extreme case where network parameters are binarized (i.e. BNNs), the two most frequently mentioned benefits of quantization are reduced memory consumption and a faster inference process. In this paper, we introduce a third advantage of very low-precision neural networks: improved fault-tolerance attribute. We investigate the impact of memory faults on state-of-the-art binary neural networks (BNNs) through comprehensive analysis. Despite the inclusion of floating-point parameters in BNN architectures to improve accuracy, our findings reveal that BNNs are highly sensitive to deviations in these parameters caused by memory faults. In light of this crucial finding, we propose a technique to improve BNN dependability by restricting the range of float parameters through a novel deliberately uniform quantization. The introduced quantization technique results in a reduction in the proportion of floating-point parameters utilized in the BNN, without incurring any additional computational overheads during the inference stage. The extensive experimental fault simulation on the proposed BNN architecture (i.e. ZOBNN) reveal a remarkable 5X enhancement in robustness compared to conventional floating-point DNN. Notably, this improvement is achieved without incurring any computational overhead. Crucially, this enhancement comes without computational overhead. \ToolName~excels in critical edge applications characterized by limited computational resources, prioritizing both dependability and real-time performance. | 翻訳日:2024-07-09 21:47:42 公開日:2024-07-06 |
# LLM圧縮の多次元安全性評価
Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression ( http://arxiv.org/abs/2407.04965v1 ) ライセンス: Link先を確認 | Zhichao Xu, Ashim Gupta, Tao Li, Oliver Bentham, Vivek Srikumar, | (参考訳) 大規模言語モデル(LLM)は、最近のモデル圧縮技術の助けを借りて、現実のシナリオにますます多くデプロイされている。
このような地域展開への勢いは、圧縮LDMの使用が人口に大きな影響を及ぼすことを意味する。
しかし、事前の分析は、しばしば、トレーニング損失の直接的な類似である難易度を保存することを優先する。
モデル行動の他の重要な側面、特に安全性に対する圧縮法の影響は、依然として体系的な評価を求めている。
この目的のために,モデル圧縮が4次元に与える影響について検討する。
1 変性害、すなわち、世代におけるバイアス及び毒性
2 表現的害、すなわち差別的タスクにおける偏見
3) 方言バイアス
4) 言語モデリングとダウンストリームタスクパフォーマンス。
我々は,構造化プルーニング,非半構造化プルーニング,量子化など,LLM圧縮手法の幅広い範囲をカバーする。
解析の結果,圧縮が予期せぬ結果をもたらすことが明らかとなった。
圧縮は故意にLLMの変性障害を回復させるかもしれないが、それでも表現的調和軸を悪化させる可能性がある。
さらに, 圧縮速度が増大するにつれて, 異なる保護群に対して異なる影響が生じる。
最後に、異なる圧縮法は、例えば量子化は、急速に劣化しながらバイアスを保ちながら、大幅に異なる安全性への影響を持つ。
本研究は, 実世界のアプリケーションにまたがる信頼性を確保するため, 圧縮LDMの開発に安全性評価を統合することの重要性を浮き彫りにした。
結果は以下の通りである。 \url{https://github.com/zhichaoxu-shufe/Beyond-Perplexity-Compression-Safety-Eval}
Large language models (LLMs) are increasingly deployed in real-world scenarios with the help of recent model compression techniques. Such momentum towards local deployment means the use of compressed LLMs will widely impact a large population. However, prior analysis works often prioritize on preserving perplexity which is a direct analogy to training loss. The impact of compression method on other critical aspects of model behavior, particularly safety, still calls for a systematic assessment. To this end, we investigate the impact of model compression on four dimensions: 1) degeneration harm, i.e., bias and toxicity in generation; 2) representational harm, i.e., biases in discriminative tasks; 3) dialect bias; 4) language modeling and downstream task performance. We cover a wide spectrum of LLM compression techniques, including structured pruning, un/semi-structured ones, and quantization. Our analyses reveal that compression can lead to unexpected consequences. Although compression may unintentionally remedy LLMs' degeneration harm, it can still exacerbate on the representational harm axis. Moreover, there is a divergent impact on different protected groups as the compression rate grows. Finally, different compression methods have drastically different safety impacts, e.g., quantization mostly preserves bias while pruning degrades quickly. Our findings underscore the importance of integrating safety assessments into the development of compressed LLMs to ensure their reliability across real-world applications. Our full results are available here: \url{https://github.com/zhichaoxu-shufe/Beyond-Perplexity-Compression-Safety-Eval} | 翻訳日:2024-07-09 21:47:42 公開日:2024-07-06 |
# 言語間音声認識の階層化戦略
A Layer-Anchoring Strategy for Enhancing Cross-Lingual Speech Emotion Recognition ( http://arxiv.org/abs/2407.04966v1 ) ライセンス: Link先を確認 | Shreya G. Upadhyay, Carlos Busso, Chi-Chun Lee, | (参考訳) 言語間音声感情認識(SER)は、幅広い日常的応用において重要である。
最近のSER研究は、感情訓練のための大規模な事前訓練モデルに大きく依存しているが、既存の研究はしばしばこれらのモデルの最終的なトランスフォーマー層にのみ依存している。
しかし、これらのモデルのタスク固有の性質と階層構造を考えると、各トランスフォーマー層は異なるレベルの情報をカプセル化する。
この階層構造を活用して、我々は異なる層に埋め込まれた情報に焦点を当てる。
異なる言語にまたがる特徴的類似性の検証を通じて,言語間SERタスクにおける感情伝達を促進するレイヤ・アチョリング機構を提案する。
本手法は2つの異なる言語感情コーパス(MSP-PodcastとBIIC-Podcast)を用いて評価し,BIIC-podcastコーパスで60.21%の最高のUAR性能を実現する。
この分析は、人気のある事前訓練されたモデルの振る舞いに関する興味深い洞察を明らかにする。
Cross-lingual speech emotion recognition (SER) is important for a wide range of everyday applications. While recent SER research relies heavily on large pretrained models for emotion training, existing studies often concentrate solely on the final transformer layer of these models. However, given the task-specific nature and hierarchical architecture of these models, each transformer layer encapsulates different levels of information. Leveraging this hierarchical structure, our study focuses on the information embedded across different layers. Through an examination of layer feature similarity across different languages, we propose a novel strategy called a layer-anchoring mechanism to facilitate emotion transfer in cross-lingual SER tasks. Our approach is evaluated using two distinct language affective corpora (MSP-Podcast and BIIC-Podcast), achieving a best UAR performance of 60.21% on the BIIC-podcast corpus. The analysis uncovers interesting insights into the behavior of popular pretrained models. | 翻訳日:2024-07-09 21:37:47 公開日:2024-07-06 |
# EVAスコア:抽出と検証によるインフォーマルネスのロングフォーム要約の評価
EVA-Score: Evaluation of Long-form Summarization on Informativeness through Extraction and Validation ( http://arxiv.org/abs/2407.04969v1 ) ライセンス: Link先を確認 | Yuchen Fan, Xin Zhong, Chengsi Wang, Gaoche Wu, Bowen Zhou, | (参考訳) 要約は自然言語処理(NLP)の基本課題であり、GPT-4やClaudeのような大規模言語モデル(LLM)が登場したため、入力シーケンスがずっと長い長文の要約に注目が集まるようになり、より多くの情報が含まれている。
現在の評価指標は、ROUGEやBERTScoreのような類似度に基づくメトリクスを使用するか、類似度に依存しており、情報豊かさの定量的分析が欠如しており、より主観的である。
本稿では,アトミック・ファクト・チェイン・ジェネレーションと文書レベルの関係抽出を併用したEVAスコアと呼ばれる新しい評価指標を提案し,その情報量を自動的に算出し,情報スコアとして定値を与える。
実験結果から,我々の測定値が人間と最先端の相関関係を示すことがわかった。
また、長文要約におけるLLMの性能を情報的側面から総合的に評価し、長文要約にLLMを使用する将来の方法を予測する。
Summarization is a fundamental task in natural language processing (NLP) and since large language models (LLMs), such as GPT-4 and Claude, come out, increasing attention has been paid to long-form summarization whose input sequences are much longer, indicating more information contained. The current evaluation metrics either use similarity-based metrics like ROUGE and BERTScore which rely on similarity and fail to consider informativeness or LLM-based metrics, lacking quantitative analysis of information richness and are rather subjective. In this paper, we propose a new evaluation metric called EVA-Score using Atomic Fact Chain Generation and Document-level Relation Extraction together to automatically calculate the informativeness and give a definite number as an information score. Experiment results show that our metric shows a state-of-the-art correlation with humans. We also re-evaluate the performance of LLMs on long-form summarization comprehensively from the information aspect, forecasting future ways to use LLMs for long-form summarization. | 翻訳日:2024-07-09 21:37:47 公開日:2024-07-06 |
# 心理学的評価のためのイディオグラフィー的個人性ガウス過程
Idiographic Personality Gaussian Process for Psychological Assessment ( http://arxiv.org/abs/2407.04970v1 ) ライセンス: Link先を確認 | Yehu Chen, Muchen Xi, Jacob Montgomery, Joshua Jackson, Roman Garnett, | (参考訳) 我々は,ガウス過程のコリージョン化モデルに基づく新しい測定フレームワークを開発し,心理測定学における長期にわたる議論に対処する。
本稿では,個体群間の共有形質構造と,個体群に対する「イディオグラフィー」偏差を両立する中間モデルであるIPGP(idiographic personality Gaussian process)の枠組みを提案する。
IPGPはガウス過程のコリージョン化モデルを利用して電池応答の群構造を扱うが、非ガウス順序データに適応する。
さらに, アイディグラフィーの大規模化に要する遅延係数の効率的な推定法として, 確率的変分推定を応用した。
合成データと実データを用いて,IPGPは実応答の予測と既存ベンチマークに対する個別化因子構造の推定の両方を改善した。
第3の研究では、IPGPは現実世界のデータに固有の個性分類群を同定し、心理学的診断と治療への個別化アプローチの進展に大きな可能性を示す。
We develop a novel measurement framework based on a Gaussian process coregionalization model to address a long-lasting debate in psychometrics: whether psychological features like personality share a common structure across the population, vary uniquely for individuals, or some combination. We propose the idiographic personality Gaussian process (IPGP) framework, an intermediate model that accommodates both shared trait structure across a population and "idiographic" deviations for individuals. IPGP leverages the Gaussian process coregionalization model to handle the grouped nature of battery responses, but adjusted to non-Gaussian ordinal data. We further exploit stochastic variational inference for efficient latent factor estimation required for idiographic modeling at scale. Using synthetic and real data, we show that IPGP improves both prediction of actual responses and estimation of individualized factor structures relative to existing benchmarks. In a third study, we show that IPGP also identifies unique clusters of personality taxonomies in real-world data, displaying great potential in advancing individualized approaches to psychological diagnosis and treatment. | 翻訳日:2024-07-09 21:37:47 公開日:2024-07-06 |
# LogicVista: ビジュアルコンテキストにおけるマルチモーダルLLM論理推論ベンチマーク
LogicVista: Multimodal LLM Logical Reasoning Benchmark in Visual Contexts ( http://arxiv.org/abs/2407.04973v1 ) ライセンス: Link先を確認 | Yijia Xiao, Edward Sun, Tianyu Liu, Wei Wang, | (参考訳) マルチモーダル大規模言語モデル(MLLM)の視覚的文脈における論理的推論能力を評価する評価ベンチマークであるLogicVistaを提案する。
近年のMLLMの進歩は、画像に基づく詩の制作から数学的推論に至るまで、様々な魅力的な能力を示している。
しかし、ナビゲーションやパズル解法といった活動に不可欠な論理的推論タスクにおいて、MLLMの習熟度を体系的に評価する能力は依然として欠如している。
そこで本研究では,5つの論理的推論課題における一般的な論理的認知能力について,448質問のサンプルを用いて評価した。
各質問は、正しい回答と、選択の背後にある人間による推論で注釈付けされ、オープンエンドとマルチチョイスの両方を評価できる。
合計8個のMLLMをLogicVistaを用いて総合的に評価する。
Code and Data available at https://github.com/Yijia-Xiao/LogicVista.com
We propose LogicVista, an evaluation benchmark that assesses the integrated logical reasoning capabilities of multimodal large language models (MLLMs) in Visual contexts. Recent advancements in MLLMs have demonstrated various fascinating abilities, from crafting poetry based on an image to performing mathematical reasoning. However, there is still a lack of systematic evaluation of MLLMs' proficiency in logical reasoning tasks, which are essential for activities like navigation and puzzle-solving. Thus we evaluate general logical cognition abilities across 5 logical reasoning tasks encompassing 9 different capabilities, using a sample of 448 multiple-choice questions. Each question is annotated with the correct answer and the human-written reasoning behind the selection, enabling both open-ended and multiple-choice evaluation. A total of 8 MLLMs are comprehensively evaluated using LogicVista. Code and Data Available at https://github.com/Yijia-Xiao/LogicVista. | 翻訳日:2024-07-09 21:37:47 公開日:2024-07-06 |
# 部分観測可能な環境に対するマルチエージェントオフポリチックアクター・クリティカル強化学習
Multi-agent Off-policy Actor-Critic Reinforcement Learning for Partially Observable Environments ( http://arxiv.org/abs/2407.04974v1 ) ライセンス: Link先を確認 | Ainur Zhaikhan, Ali H. Sayed, | (参考訳) 本研究では, ソーシャルラーニング手法を用いて, 部分的に観測可能な環境下での強化学習(RL)のためのマルチエージェント・オフ・ポリチック・アクター・クリティック・アルゴリズムのグローバル状態を推定する手法を提案する。
エージェントのネットワークが完全に分散された方法で動作し、変数をすぐ隣人と交換する能力を持っていると仮定する。
提案手法は,グローバルな状態が十分に観察された場合と,社会的学習手法によって推定された場合の最終的な結果の差が,適切な回数の社会学習更新を行う場合に,$\varepsilon$-boundedであることを示す分析によって支持される。
多くの既存の de-POMDP ベースの RL アプローチとは異なり,提案アルゴリズムは遷移モデルの知識を必要としないため,モデルフリーなマルチエージェント強化学習に適している。
さらに,実験結果から,現在の最先端手法よりもアルゴリズムの有効性を示し,その優位性を示した。
This study proposes the use of a social learning method to estimate a global state within a multi-agent off-policy actor-critic algorithm for reinforcement learning (RL) operating in a partially observable environment. We assume that the network of agents operates in a fully-decentralized manner, possessing the capability to exchange variables with their immediate neighbors. The proposed design methodology is supported by an analysis demonstrating that the difference between final outcomes, obtained when the global state is fully observed versus estimated through the social learning method, is $\varepsilon$-bounded when an appropriate number of iterations of social learning updates are implemented. Unlike many existing dec-POMDP-based RL approaches, the proposed algorithm is suitable for model-free multi-agent reinforcement learning as it does not require knowledge of a transition model. Furthermore, experimental results illustrate the efficacy of the algorithm and demonstrate its superiority over the current state-of-the-art methods. | 翻訳日:2024-07-09 21:37:47 公開日:2024-07-06 |
# 正規化流れを伴う非線形後モデルにおける因果発見
Enabling Causal Discovery in Post-Nonlinear Models with Normalizing Flows ( http://arxiv.org/abs/2407.04980v1 ) ライセンス: Link先を確認 | Nu Hoang, Bao Duong, Thin Nguyen, | (参考訳) 非線形後因果モデル(PNL)は、複雑な因果関係をモデル化するための汎用的で適応可能なフレームワークとして際立っている。
しかしながら、PNLモデルで必要とされる可逆性制約を正確に捉えることは、既存の研究では難しい。
この問題に対処するために,我々は正規化フローアーキテクチャのパワーを活用し,PNLモデルにおける重要な可逆性制約を強制する CAF-PoNo (正規化フローによるポスト非線形モデルへの因果発見)を導入する。
本手法は,流れの正規化を通じて隠れ雑音を正確に再構成し,統計的独立性試験により原因影響の同定に重要な役割を担っている。
さらに,提案手法は,因果関係を効率的に解き放つために,因果関係の同定による多変量因果関係の発見を容易にするためにシームレスに拡張できることから,顕著な拡張性を示す。
シミュレーションと実データの両方に対する広範囲な実験的評価は、提案手法が二変量および多変量因果発見タスクにおいていくつかの最先端手法より優れていることを一貫して証明している。
Post-nonlinear (PNL) causal models stand out as a versatile and adaptable framework for modeling intricate causal relationships. However, accurately capturing the invertibility constraint required in PNL models remains challenging in existing studies. To address this problem, we introduce CAF-PoNo (Causal discovery via Normalizing Flows for Post-Nonlinear models), harnessing the power of the normalizing flows architecture to enforce the crucial invertibility constraint in PNL models. Through normalizing flows, our method precisely reconstructs the hidden noise, which plays a vital role in cause-effect identification through statistical independence testing. Furthermore, the proposed approach exhibits remarkable extensibility, as it can be seamlessly expanded to facilitate multivariate causal discovery via causal order identification, empowering us to efficiently unravel complex causal relationships. Extensive experimental evaluations on both simulated and real datasets consistently demonstrate that the proposed method outperforms several state-of-the-art approaches in both bivariate and multivariate causal discovery tasks. | 翻訳日:2024-07-09 21:37:47 公開日:2024-07-06 |
# TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs
TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs ( http://arxiv.org/abs/2407.04981v1 ) ライセンス: Link先を確認 | Cheng Wang, Xinyang Lu, See-Kiong Ng, Bryan Kian Hsiang Low, | (参考訳) 大規模言語モデル(LLM)の急速な進化は、自然言語の理解と生成における飛躍的な進歩を表している。
しかし、これらの進歩とともに、LCM応答の説明可能性や透明性に関する大きな課題がもたらされる。
信頼性のあるソース属性は、一般データ保護規則(General Data Protection Regulation)の定めるものを含む、厳格な法的および規制基準に従うために不可欠である。
コンピュータビジョン領域におけるソース属性の確立した手法にもかかわらず、自然言語処理への堅牢な属性フレームワークの適用は未定である。
このギャップを埋めるために,TRACEと呼ばれるコントラスト型埋め込みを用いたTRansformer-based Attributionフレームワークを提案する。
様々な環境でTRACEの性能と効率を実証する実験的な評価を行い、TRACEがソースの属性を精度良く改善し、LCMの信頼性と信頼性を高める貴重なツールであることを示す。
The rapid evolution of large language models (LLMs) represents a substantial leap forward in natural language understanding and generation. However, alongside these advancements come significant challenges related to the accountability and transparency of LLM responses. Reliable source attribution is essential to adhering to stringent legal and regulatory standards, including those set forth by the General Data Protection Regulation. Despite the well-established methods in source attribution within the computer vision domain, the application of robust attribution frameworks to natural language processing remains underexplored. To bridge this gap, we propose a novel and versatile TRansformer-based Attribution framework using Contrastive Embeddings called TRACE that, in particular, exploits contrastive learning for source attribution. We perform an extensive empirical evaluation to demonstrate the performance and efficiency of TRACE in various settings and show that TRACE significantly improves the ability to attribute sources accurately, making it a valuable tool for enhancing the reliability and trustworthiness of LLMs. | 翻訳日:2024-07-09 21:37:47 公開日:2024-07-06 |
# ゲーム用テストインプット生成のための神経進化と新奇性検索の併用
Combining Neuroevolution with the Search for Novelty to Improve the Generation of Test Inputs for Games ( http://arxiv.org/abs/2407.04985v1 ) ライセンス: Link先を確認 | Patric Feldmeier, Gordon Fraser, | (参考訳) ゲームが従来の自動ホワイトボックステストジェネレータに挑戦するとき、Neatestアプローチは、ゲームをすることでソースコードを動作させるニューラルネットワークからなるテストスイートを生成する。
Neatestは、個々のソースコードステートメントをターゲットにした客観的関数によって導かれる進化的アルゴリズムを使用して、これらのニューラルネットワークを生成する。
目的関数が十分なガイダンスを提供する場合、このアプローチはうまく機能するが、複雑なフィットネスランドスケープが探索を阻害する可能性がある。
本稿では,探索中の新しい行動を促進することで,フィットネスランドスケープの課題に対処できるかどうかを考察する。
2つのScratchゲームに関するケーススタディでは、新しい行動に対する報酬は、困難なフィットネスランドスケープを克服する上で有望なアプローチであることを示す。
As games challenge traditional automated white-box test generators, the Neatest approach generates test suites consisting of neural networks that exercise the source code by playing the games. Neatest generates these neural networks using an evolutionary algorithm that is guided by an objective function targeting individual source code statements. This approach works well if the objective function provides sufficient guidance, but deceiving or complex fitness landscapes may inhibit the search. In this paper, we investigate whether the issue of challenging fitness landscapes can be addressed by promoting novel behaviours during the search. Our case study on two Scratch games demonstrates that rewarding novel behaviours is a promising approach for overcoming challenging fitness landscapes, thus enabling future research on how to adapt the search algorithms to best use this information. | 翻訳日:2024-07-09 21:37:47 公開日:2024-07-06 |
# DLICPによるコミュニティパークのカロリーバーン推定--数理モデルによるアプローチ
Calorie Burn Estimation in Community Parks Through DLICP: A Mathematical Modelling Approach ( http://arxiv.org/abs/2407.04986v1 ) ライセンス: Link先を確認 | Abhishek Sebastian, Annis Fathima A, Pragna R, Madhan Kumar S, Jesher Joshua M, | (参考訳) コミュニティパークは、身体活動と全体の幸福を促進する上で重要な役割を担っている。
DLICP(Deep Learning Integrated Community Parks、ディープラーニング統合コミュニティパーク)は、ディープラーニング技術、特に顔認識技術と新しい歩行行動計測アルゴリズムを組み合わせて、コミュニティパークにおけるユーザエクスペリエンスを向上させる革新的なアプローチである。
DLICPは、顔認識ソフトウェアを備えたカメラを使用して、公園のユーザーを正確に識別し追跡する。
同時に、歩行活動測定アルゴリズムは、個々の属性に合わせて、平均ペースや消費カロリーなどのパラメータを算出する。
DLICPの精度は、平均絶対誤差(MAE)が5.64カロリー、平均パーセンテージ誤差(MPE)が1.96%で、Apple Watch Series 6のような広く利用可能なフィットネス測定装置と比較された。
本研究は、インテリジェントなスマートパークシステムの開発に大きく貢献し、消費カロリーのリアルタイム更新とパーソナライズされたフィットネストラッキングを可能にした。
Community parks play a crucial role in promoting physical activity and overall well-being. This study introduces DLICP (Deep Learning Integrated Community Parks), an innovative approach that combines deep learning techniques specifically, face recognition technology with a novel walking activity measurement algorithm to enhance user experience in community parks. The DLICP utilizes a camera with face recognition software to accurately identify and track park users. Simultaneously, a walking activity measurement algorithm calculates parameters such as the average pace and calories burned, tailored to individual attributes. Extensive evaluations confirm the precision of DLICP, with a Mean Absolute Error (MAE) of 5.64 calories and a Mean Percentage Error (MPE) of 1.96%, benchmarked against widely available fitness measurement devices, such as the Apple Watch Series 6. This study contributes significantly to the development of intelligent smart park systems, enabling real-time updates on burned calories and personalized fitness tracking. | 翻訳日:2024-07-09 21:37:47 公開日:2024-07-06 |
# ニューラルネットワーク制御系の到達可能性問題
The Reachability Problem for Neural-Network Control Systems ( http://arxiv.org/abs/2407.04988v1 ) ライセンス: Link先を確認 | Christian Schilling, Martin Zimmermann, | (参考訳) 制御システムは、プラントコンポーネントと、プラントの制御入力を周期的に計算するコントローラとから構成される。
本稿では、ReLUアクティベーションを備えたフィードフォワードニューラルネットワークによってコントローラが実装されるシステムについて考察する。
到達可能性問題は、一連の初期状態が与えられた場合、一連の目標状態に到達できるかどうかを問う。
3つの入力と出力を持つ自明な植物や固定深度ニューラルネットワークでさえ、この問題は決定不可能であることを示す。
また、植物と入力およびターゲットセットが無限語上のオートマトンによって与えられると、その問題が半決定可能であることも示している。
A control system consists of a plant component and a controller which periodically computes a control input for the plant. We consider systems where the controller is implemented by a feedforward neural network with ReLU activations. The reachability problem asks, given a set of initial states, whether a set of target states can be reached. We show that this problem is undecidable even for trivial plants and fixed-depth neural networks with three inputs and outputs. We also show that the problem becomes semi-decidable when the plant as well as the input and target sets are given by automata over infinite words. | 翻訳日:2024-07-09 21:37:47 公開日:2024-07-06 |
# 低リソースデータを用いたスパムメッセージ検出のための条件付き半監督データ拡張
Conditional Semi-Supervised Data Augmentation for Spam Message Detection with Low Resource Data ( http://arxiv.org/abs/2407.04990v1 ) ライセンス: Link先を確認 | Ulin Nuha, Chih-Hsueh Lin, | (参考訳) いくつかの機械学習スキームがスパムメッセージの検出を試みている。
しかし、これらのスキームは大部分が大量のラベル付きデータを必要とする。
データ可用性の欠如に対処する既存の技術には、有効性と堅牢性に関する問題がある。
そこで本論文では,データの可用性に欠けるスパム検出モデルに対して,条件付き半教師付きデータ拡張(CSSDA)を提案する。
CSSDAの主なアーキテクチャは、特徴抽出と拡張生成ネットワークである。
ここでは、トレーニングデータを拡張するために、ラベルなしのデータをデータ拡張に活用する。
提案手法では, 条件付きスキームを用いて, ラベルのないデータから潜在変数を偽のサンプルとして生成する。
我々のスパム検出モデルにおける最終分類器の入力としてラベル付きおよびラベルなしのデータから潜伏変数を得ることができる。
実験結果から,提案したCSSDAは,ラベルなしデータの活用と利用の両面で,いくつかの関連手法と比較して優れた結果が得られたことが示唆された。
各種ラベル付きデータの実験段階において、ラベル付きデータの可用性が大きくなると、CSSDAはバランスの取れた精度が約85%になる唯一のロバストモデルである。
また,提案手法を詳細に検討するために,いくつかのアブレーション研究を行っている。
この結果は、いくつかのアブレーション研究が我々の提案したイノベーションを強化していることを示している。
これらの実験により, ラベル付きデータは, スパム検出のための条件付き半教師付きスキームを用いて, データの増大に大きく寄与していることがわかった。
Several machine learning schemes have attempted to perform the detection of spam messages. However, those schemes mostly require a huge amount of labeled data. The existing techniques addressing the lack of data availability have issues with effectiveness and robustness. Therefore, this paper proposes a conditional semi-supervised data augmentation (CSSDA) for a spam detection model lacking the availability of data. The main architecture of CSSDA comprises feature extraction and enhanced generative network. Here, we exploit unlabeled data for data augmentation to extend training data. The enhanced generative in our proposed scheme produces latent variables as fake samples from unlabeled data through a conditional scheme. Latent variables can come from labeled and unlabeled data as the input for the final classifier in our spam detection model. The experimental results indicate that our proposed CSSDA achieves excellent results compared to several related methods both exploiting unlabeled data and not. In the experiment stage with various amounts of unlabeled data, CSSDA is the only robust model that obtains a balanced accuracy of about 85% when the availability of labeled data is large. We also conduct several ablation studies to investigate our proposed scheme in detail. The result also shows that several ablation studies strengthen our proposed innovations. These experiments indicate that unlabeled data has a significant contribution to data augmentation using the conditional semi-supervised scheme for spam detection. | 翻訳日:2024-07-09 21:37:47 公開日:2024-07-06 |
# AIGC推論性能最適化コンペティションのソリューション
The Solution for the AIGC Inference Performance Optimization Competition ( http://arxiv.org/abs/2407.04991v1 ) ライセンス: Link先を確認 | Sishun Pan, Haonan Xu, Zhonghua Wan, Yang Yang, | (参考訳) 近年,トランスフォーマーアーキテクチャに基づく大規模事前学習型言語モデルの急速な進歩は,自然言語処理タスクに革命をもたらした。
このうちChatGPTは、人間レベルの会話能力を示し、2022年末までに1億人以上の月間ユーザーを惹きつけ、広く普及している。
同時にBaiduのErnie Wenxinモデルの商用展開は、AI駆動技術によるマーケティング効果を著しく向上させた。
本稿では、Ernieモデルの高性能推論の最適化、GPUアクセラレーションの強調、Paddle推論フレームワークの活用に焦点を当てる。
我々は,効率的なモデル処理のために高速トランスフォーマー,計算オーバーヘッドを低減するために埋め込み層プルーニング,計算効率を向上させるためにFP16半精度推論などの手法を用いる。
さらに,マルチプロセス並列処理を用いた効率的なデータ処理戦略を統合し,レイテンシを最小化する。
実験の結果,最適化されたソリューションは,競争性能を維持しつつ,標準手法に比べて推算速度が最大8.96倍向上することがわかった。
In recent years, the rapid advancement of large-scale pre-trained language models based on transformer architectures has revolutionized natural language processing tasks. Among these, ChatGPT has gained widespread popularity, demonstrating human-level conversational abilities and attracting over 100 million monthly users by late 2022. Concurrently, Baidu's commercial deployment of the Ernie Wenxin model has significantly enhanced marketing effectiveness through AI-driven technologies. This paper focuses on optimizing high-performance inference for Ernie models, emphasizing GPU acceleration and leveraging the Paddle inference framework. We employ techniques such as Faster Transformer for efficient model processing, embedding layer pruning to reduce computational overhead, and FP16 half-precision inference for enhanced computational efficiency. Additionally, our approach integrates efficient data handling strategies using multi-process parallel processing to minimize latency. Experimental results demonstrate that our optimized solution achieves up to an 8.96x improvement in inference speed compared to standard methods, while maintaining competitive performance. | 翻訳日:2024-07-09 21:37:47 公開日:2024-07-06 |
# 非周期性に制約されないスケーラブルな変分因果発見
Scalable Variational Causal Discovery Unconstrained by Acyclicity ( http://arxiv.org/abs/2407.04992v1 ) ライセンス: Link先を確認 | Nu Hoang, Bao Duong, Thin Nguyen, | (参考訳) ベイズ因果発見は、データを説明する可能性のある様々な構造的多様因果理論の中で、有意な不確かさを定量化する力を提供し、有向非巡回グラフ(DAG)の形で表される。
しかし,既存手法では複素非周期性制約のため,効率的なDAGサンプリングに苦慮している。
本研究では,DAGを明示的に非周期的に生成する能力により,観測データから得られた因果グラフの後方分布を効果的に学習するスケーラブルなベイズ的手法を提案する。
具体的には、暗黙的トポロジ的順序の制約のない分布をDAG上の分布にマッピングすることにより、有効な非循環因果グラフを生成することができる新しい微分可能なDAGサンプリング手法を提案する。
この効率的なDAGサンプリング方式により、連続領域上の単純な変分分布を用いて因果グラフ上の後部分布をモデル化することができる。
シミュレーションと実データの両方に対する大規模な実験実験は、いくつかの最先端ベースラインと比較して提案モデルの優れた性能を示す。
Bayesian causal discovery offers the power to quantify epistemic uncertainties among a broad range of structurally diverse causal theories potentially explaining the data, represented in forms of directed acyclic graphs (DAGs). However, existing methods struggle with efficient DAG sampling due to the complex acyclicity constraint. In this study, we propose a scalable Bayesian approach to effectively learn the posterior distribution over causal graphs given observational data thanks to the ability to generate DAGs without explicitly enforcing acyclicity. Specifically, we introduce a novel differentiable DAG sampling method that can generate a valid acyclic causal graph by mapping an unconstrained distribution of implicit topological orders to a distribution over DAGs. Given this efficient DAG sampling scheme, we are able to model the posterior distribution over causal graphs using a simple variational distribution over a continuous domain, which can be learned via the variational inference framework. Extensive empirical experiments on both simulated and real datasets demonstrate the superior performance of the proposed model compared to several state-of-the-art baselines. | 翻訳日:2024-07-09 21:37:47 公開日:2024-07-06 |
# 言語強調画像の新しいカテゴリー発見の解法
The Solution for Language-Enhanced Image New Category Discovery ( http://arxiv.org/abs/2407.04994v1 ) ライセンス: Link先を確認 | Haonan Xu, Dian Chao, Xiangyu Wu, Zhonghua Wan, Yang Yang, | (参考訳) テキストを画像として扱い、プロンプトとテキストラベルを組み合わせることで、CLIPのアライメント特性を活用し、ゼロショットマルチラベル画像認識に成功している。
それにもかかわらず、視覚情報を保存するためのテキストラベルのみに頼ることは、視覚オブジェクトの多様性を表現するには不十分である。
本稿では,CLIPの学習過程を逆転させ,擬似視覚プロンプトの概念を導入することを提案する。
これらのプロンプトは各対象カテゴリに対して初期化され、大規模で低コストな文データに基づいて事前訓練される。
このプロセスは、整列した視覚情報をCLIPにマイニングし、クラス固有の視覚的プロンプトに格納する。
次に、コントラスト学習を用いて、記憶された視覚情報をテキストラベルに転送し、その視覚表現能力を高める。
さらに、元のCLIPからの知識と下流データセットから派生した新たな学習知識を同時に活用するデュアルアダプタモジュールを導入する。
擬似的な視覚的プロンプトから得られる利点は、クリーンな注釈付きテキストデータだけでなく、大規模言語モデルによって生成された擬似テキストデータにも適用できる。
Treating texts as images, combining prompts with textual labels for prompt tuning, and leveraging the alignment properties of CLIP have been successfully applied in zero-shot multi-label image recognition. Nonetheless, relying solely on textual labels to store visual information is insufficient for representing the diversity of visual objects. In this paper, we propose reversing the training process of CLIP and introducing the concept of Pseudo Visual Prompts. These prompts are initialized for each object category and pre-trained on large-scale, low-cost sentence data generated by large language models. This process mines the aligned visual information in CLIP and stores it in class-specific visual prompts. We then employ contrastive learning to transfer the stored visual information to the textual labels, enhancing their visual representation capacity. Additionally, we introduce a dual-adapter module that simultaneously leverages knowledge from the original CLIP and new learning knowledge derived from downstream datasets. Benefiting from the pseudo visual prompts, our method surpasses the state-of-the-art not only on clean annotated text data but also on pseudo text data generated by large language models. | 翻訳日:2024-07-09 21:37:47 公開日:2024-07-06 |
# 第2回グレーターベイエリア国際アルゴリズムコンペティションにおける逐次タスク連続学習の解法
The Solution for the sequential task continual learning track of the 2nd Greater Bay Area International Algorithm Competition ( http://arxiv.org/abs/2407.04996v1 ) ライセンス: Link先を確認 | Sishun Pan, Xixian Wu, Tingmin Li, Longfei Huang, Mingxu Feng, Zhonghua Wan, Yang Yang, | (参考訳) 本稿では,第2回グレーターベイエリア国際アルゴリズムコンペティションの連続的なタスク継続学習トラックに対して,データフリーでパラメータアイソレーションに基づく連続学習アルゴリズムを提案する。
この方法は、ネットワークの畳み込み層と線形層内の各タスクに対して独立したパラメータ部分空間を学習し、最初のタスク後にバッチ正規化層を凍結する。
具体的には、すべてのドメインが分類ヘッドを共有しているドメインインクリメンタルな設定において、最初のタスクが完了した後、共有分類ヘッドを凍結し、破滅的な忘れを効果的に解決する。
さらに、タスクの同一性を提供しずにドメインの漸進的な設定の課題に直面し、各サンプルに対して適切なマスク行列を選択する推論タスクの同一性戦略を設計した。
さらに,現在課題における未選択パラメータの重要性を高め,新たな課題の学習を容易にするために,勾配補足戦略を導入した。
また,パラメータの量を動的に調整して単一タスクの性能を最適化し,パラメータの使用量を削減する適応的重要度スコアリング戦略を実装した。
さらに,記憶空間の制限と推定時間を考慮して,記憶空間を節約し,マスク行列の暗号化と復号化の高速化を図るマスク行列圧縮戦略を考案した。
我々のアプローチでは、コアネットワークの拡張や外部補助ネットワークやデータの使用は必要とせず、タスクインクリメンタルとドメインインクリメンタルの両方でうまく機能します。
この解決策は最終的に大会で2位を獲得した。
This paper presents a data-free, parameter-isolation-based continual learning algorithm we developed for the sequential task continual learning track of the 2nd Greater Bay Area International Algorithm Competition. The method learns an independent parameter subspace for each task within the network's convolutional and linear layers and freezes the batch normalization layers after the first task. Specifically, for domain incremental setting where all domains share a classification head, we freeze the shared classification head after first task is completed, effectively solving the issue of catastrophic forgetting. Additionally, facing the challenge of domain incremental settings without providing a task identity, we designed an inference task identity strategy, selecting an appropriate mask matrix for each sample. Furthermore, we introduced a gradient supplementation strategy to enhance the importance of unselected parameters for the current task, facilitating learning for new tasks. We also implemented an adaptive importance scoring strategy that dynamically adjusts the amount of parameters to optimize single-task performance while reducing parameter usage. Moreover, considering the limitations of storage space and inference time, we designed a mask matrix compression strategy to save storage space and improve the speed of encryption and decryption of the mask matrix. Our approach does not require expanding the core network or using external auxiliary networks or data, and performs well under both task incremental and domain incremental settings. This solution ultimately won a second-place prize in the competition. | 翻訳日:2024-07-09 21:37:47 公開日:2024-07-06 |
# 微調整を伴わないプロンプト工学によるLDMの機能評価ツールの開発
Achieving Tool Calling Functionality in LLMs Using Only Prompt Engineering Without Fine-Tuning ( http://arxiv.org/abs/2407.04997v1 ) ライセンス: Link先を確認 | Shengtao He, | (参考訳) 現在、ローカルにデプロイされたオープンソースの大規模言語モデル(LLM)と、いくつかの商用モデルインターフェースは、安定したツール呼び出し機能をサポートしていない。
既存のソリューションには微調整のLSMが含まれており、結果としてかなりの時間と計算資源が消費される。
本稿では, プロンプトエンジニアリングといくつかの巧妙なコード設計のみを用いて, LLMが安定したツール呼び出し機能を実現する方法を提案する。
ツールコール機能に欠ける複数のLDM実験を行い、100%の成功率を実現した。
Currently, the vast majority of locally deployed open-source large language models (LLMs) and some commercial model interfaces do not support stable tool calling functionality. The existing solution involves fine-tuning LLMs, which results in significant time and computational resource consumption. This paper proposes a method that enables LLMs to achieve stable tool calling capabilities using only prompt engineering and some ingenious code design. We conducted experiments on multiple LLMs that lack tool calling capabilities across various tool calling tasks, achieving a success rate of 100%. | 翻訳日:2024-07-09 21:28:00 公開日:2024-07-06 |
# 第5回GCAIACゼロショット参照表現理解チャレンジの解法
The Solution for the 5th GCAIAC Zero-shot Referring Expression Comprehension Challenge ( http://arxiv.org/abs/2407.04998v1 ) ライセンス: Link先を確認 | Longfei Huang, Feng Yu, Zhihao Guan, Zhonghua Wan, Yang Yang, | (参考訳) 本稿では,ゼロショット参照表現理解タスクの解法を提案する。
ビジュアル言語によるマルチモーダルベースモデル(CLIP、SAMなど)は、近年主流研究の基盤として注目されている。
マルチモーダルベースモデルのキーとなる応用の1つは、ゼロショットダウンストリームタスクに一般化する能力にある。
従来の参照表現理解とは異なり、ゼロショット参照表現理解は、特定の訓練をすることなく、事前学習された視覚言語モデルをタスクに直接適用することを目的としている。
近年,視覚的プロンプトの導入による表現理解タスクの参照において,マルチモーダルベースモデルのゼロショット性能が向上している。
ゼロショット参照表現理解の課題に対処するために、視覚的プロンプトの組み合わせを導入し、データ特性に合わせた共同予測を用いてテキスト的プロンプトの影響を検討した。
最終的に、我々のアプローチはAリーダーボードで84.825、Bリーダーボードで71.460の精度を達成し、第1位を確保しました。
This report presents a solution for the zero-shot referring expression comprehension task. Visual-language multimodal base models (such as CLIP, SAM) have gained significant attention in recent years as a cornerstone of mainstream research. One of the key applications of multimodal base models lies in their ability to generalize to zero-shot downstream tasks. Unlike traditional referring expression comprehension, zero-shot referring expression comprehension aims to apply pre-trained visual-language models directly to the task without specific training. Recent studies have enhanced the zero-shot performance of multimodal base models in referring expression comprehension tasks by introducing visual prompts. To address the zero-shot referring expression comprehension challenge, we introduced a combination of visual prompts and considered the influence of textual prompts, employing joint prediction tailored to the data characteristics. Ultimately, our approach achieved accuracy rates of 84.825 on the A leaderboard and 71.460 on the B leaderboard, securing the first position. | 翻訳日:2024-07-09 21:28:00 公開日:2024-07-06 |
# GNN評価ベンチマークにおけるグラフ分類データセットの有効性の再考
Rethinking the Effectiveness of Graph Classification Datasets in Benchmarks for Assessing GNNs ( http://arxiv.org/abs/2407.04999v1 ) ライセンス: Link先を確認 | Zhengdao Li, Yong Cao, Kefan Shuai, Yiming Miao, Kai Hwang, | (参考訳) グラフ分類ベンチマークは、グラフニューラルネットワーク(GNN)の評価と開発に不可欠である。
これらのベンチマークは、他の方法論よりもGNNの進歩を効果的に区別しますか?
もしそうなら、どうすればこの効果を定量的に測定できるでしょうか。
そこで本研究では,まず,単純な手法とGNN間の性能差を調べるための,公正なベンチマークフレームワークに基づく経験的プロトコルを提案する。
さらに,データセットの複雑性とモデル性能を両立させることにより,データセットの有効性を定量化する新しい指標を提案する。
我々の知識を最大限に活用するために、我々の研究はグラフ学習領域におけるデータセットの有効性を明確に定義し、徹底的に研究した最初のものである。
16の現実世界のデータセットをテストすることで、既存の研究と直感的な仮定に合わせるためのメトリクスを見つけました。
最後に,内在性グラフ特性とクラスラベルとの相関関係について検討し,相関制御可能な合成データセット生成を支援する新しい手法を開発した。
我々の発見は、ベンチマークデータセットの現在の理解に光を当て、新しいプラットフォームは、グラフ分類ベンチマークの将来的な進化を後押しする可能性がある。
Graph classification benchmarks, vital for assessing and developing graph neural networks (GNNs), have recently been scrutinized, as simple methods like MLPs have demonstrated comparable performance. This leads to an important question: Do these benchmarks effectively distinguish the advancements of GNNs over other methodologies? If so, how do we quantitatively measure this effectiveness? In response, we first propose an empirical protocol based on a fair benchmarking framework to investigate the performance discrepancy between simple methods and GNNs. We further propose a novel metric to quantify the dataset effectiveness by considering both dataset complexity and model performance. To the best of our knowledge, our work is the first to thoroughly study and provide an explicit definition for dataset effectiveness in the graph learning area. Through testing across 16 real-world datasets, we found our metric to align with existing studies and intuitive assumptions. Finally, we explore the causes behind the low effectiveness of certain datasets by investigating the correlation between intrinsic graph properties and class labels, and we developed a novel technique supporting the correlation-controllable synthetic dataset generation. Our findings shed light on the current understanding of benchmark datasets, and our new platform could fuel the future evolution of graph classification benchmarks. | 翻訳日:2024-07-09 21:28:00 公開日:2024-07-06 |
# LoRA-GA: 勾配近似による低ランク適応
LoRA-GA: Low-Rank Adaptation with Gradient Approximation ( http://arxiv.org/abs/2407.05000v1 ) ライセンス: Link先を確認 | Shaowen Wang, Linxi Yu, Jian Li, | (参考訳) 微調整された大規模事前訓練モデルは、計算とメモリコストの点で極めて高価である。
LoRAは、パラメータ効率の良いファインチューニング(PEFT)手法として、パラメータが著しく少ない補助的な低ランクモデルを微調整することで、コスト効率の良い代替手段を提供する。
LoRAは各イテレーションで計算とメモリの要求を大幅に削減するが、広範な実証的な証拠は、完全な微調整に比べてかなり遅い速度で収束し、最終的には計算全体の増加とテスト性能の悪化につながることを示している。
本稿では,LoRAの初期化手法の詳細な検討を行い,アーキテクチャやトレーニングアルゴリズムの変更なしに,注意深い初期化が効率と性能の両方を大幅に向上させることを示す。
特に,新しい初期化手法であるLoRA-GA(Low Rank Adaptation with Gradient Approximation)を導入する。
我々の広範囲な実験により、LoRA-GAは完全な微調整と同等の収束率(バニラのLoRAよりも大幅に高速であり、最近の改良もいくつかある)を同時に達成し、同時に同等あるいはより優れた性能を実現していることが示された。
例えば、GLUEデータセットのサブセットであるT5-Baseでは、LoRA-GAは平均で5.69%向上している。
Llama 2-7Bのような大型モデルでは、それぞれMT-bench、GSM8K、Human-evalで0.34、1.52%、および5.05%の性能向上を示した。
さらに,バニラロラに比べて最大2~4倍の収束速度向上が観察され,収束の促進とモデル性能の向上に効果が検証された。
コードはhttps://github.com/Outsider565/LoRA-GAで入手できる。
Fine-tuning large-scale pretrained models is prohibitively expensive in terms of computational and memory costs. LoRA, as one of the most popular Parameter-Efficient Fine-Tuning (PEFT) methods, offers a cost-effective alternative by fine-tuning an auxiliary low-rank model that has significantly fewer parameters. Although LoRA reduces the computational and memory requirements significantly at each iteration, extensive empirical evidence indicates that it converges at a considerably slower rate compared to full fine-tuning, ultimately leading to increased overall compute and often worse test performance. In our paper, we perform an in-depth investigation of the initialization method of LoRA and show that careful initialization (without any change of the architecture and the training algorithm) can significantly enhance both efficiency and performance. In particular, we introduce a novel initialization method, LoRA-GA (Low Rank Adaptation with Gradient Approximation), which aligns the gradients of low-rank matrix product with those of full fine-tuning at the first step. Our extensive experiments demonstrate that LoRA-GA achieves a convergence rate comparable to that of full fine-tuning (hence being significantly faster than vanilla LoRA as well as various recent improvements) while simultaneously attaining comparable or even better performance. For example, on the subset of the GLUE dataset with T5-Base, LoRA-GA outperforms LoRA by 5.69% on average. On larger models such as Llama 2-7B, LoRA-GA shows performance improvements of 0.34, 11.52%, and 5.05% on MT-bench, GSM8K, and Human-eval, respectively. Additionally, we observe up to 2-4 times convergence speed improvement compared to vanilla LoRA, validating its effectiveness in accelerating convergence and enhancing model performance. Code is available at https://github.com/Outsider565/LoRA-GA. | 翻訳日:2024-07-09 21:28:00 公開日:2024-07-06 |
# 適応的知識マッチングに基づく個人化フェデレーションドメインインクリメンタルラーニング
Personalized Federated Domain-Incremental Learning based on Adaptive Knowledge Matching ( http://arxiv.org/abs/2407.05005v1 ) ライセンス: Link先を確認 | Yichen Li, Wenchao Xu, Haozhao Wang, Ruixuan Li, Yining Qi, Jingcai Guo, | (参考訳) 本稿では,FDIL(Federated Domain-Incremental Learning)に焦点を当て,各クライアントが相互にドメインがシフトする段階的なタスクを学習し続けている。
適応型知識マッチングに基づくパーソナライズFDIL手法 (pFedDIL) を提案する。
より具体的には、新しいタスクが到着すると、各クライアントはまず、そのローカルなタスクと前のタスクとの相関を計算する。
次に、クライアントは、新しい初期モデルまたは類似した知識を持つ前のモデルを採用して、新しいタスクをトレーニングし、これらの相関に基づいて、以前のタスクから知識を同時に移行することができる。
さらに,新たなタスクとクライアント毎のタスク間の相関関係を識別するために,各対象分類モデルに補助分類器を別々に使用し,対象分類モデルと補助分類器との間の部分的パラメータの共有を提案し,モデルパラメータを凝縮させる。
pFedDILは各タスクの平均精度を最大14.35倍に向上することを示した。
This paper focuses on Federated Domain-Incremental Learning (FDIL) where each client continues to learn incremental tasks where their domain shifts from each other. We propose a novel adaptive knowledge matching-based personalized FDIL approach (pFedDIL) which allows each client to alternatively utilize appropriate incremental task learning strategy on the correlation with the knowledge from previous tasks. More specifically, when a new task arrives, each client first calculates its local correlations with previous tasks. Then, the client can choose to adopt a new initial model or a previous model with similar knowledge to train the new task and simultaneously migrate knowledge from previous tasks based on these correlations. Furthermore, to identify the correlations between the new task and previous tasks for each client, we separately employ an auxiliary classifier to each target classification model and propose sharing partial parameters between the target classification model and the auxiliary classifier to condense model parameters. We conduct extensive experiments on several datasets of which results demonstrate that pFedDIL outperforms state-of-the-art methods by up to 14.35\% in terms of average accuracy of all tasks. | 翻訳日:2024-07-09 21:28:00 公開日:2024-07-06 |
# トルコ語中央アジアの言語処理の進歩と課題
Recent Advancements and Challenges of Turkic Central Asian Language Processing ( http://arxiv.org/abs/2407.05006v1 ) ライセンス: Link先を確認 | Yana Veitsman, | (参考訳) 中央アジアの言語、すなわちカザフ語、ウズベク語、キルギス語、トルクメン語のNLP圏の研究は、データ不足や一般的な言語資源の欠如など、低リソース言語の典型的な課題を伴っている。
しかし近年,言語固有のデータセットの収集や下流タスク技術の開発を通じて,研究が大幅に進展している。
2024年5月までのこの研究を要約するために,本論文は今後の研究の潜在的な領域を特定することを目的とする。
そこで本稿では,言語の性質,既存の技術の現状と性能,高リソース言語からの移動学習技術の適用,ラベル付き・未ラベルデータの利用について概説する。
現状の要約として、本論文で提示した考察により、さらなる研究が促進されることを願っている。
Research in the NLP sphere of the Turkic counterparts of Central Asian languages, namely Kazakh, Uzbek, Kyrgyz, and Turkmen, comes with the typical challenges of low-resource languages, like data scarcity and a general lack of linguistic resources. However, in the recent years research has greatly advanced via collection of language-specific datasets and development of downstream task technologies. Aiming to summarize this research up until May 2024, this paper also seeks to identify potential areas of future work. To achieve this, the paper gives a broad, high-level overview of the linguistic properties of the languages, the current coverage and performance of already developed technology, application of transfer learning techniques from higher-resource languages, and availability of labeled and unlabeled data for each language. Providing a summary of the current state of affairs, we hope that further research will be facilitated with the considerations we provide in the current paper. | 翻訳日:2024-07-09 21:28:00 公開日:2024-07-06 |
# BlessemFlood21:人道支援のための高解像度ジオレファレンスデータセットによる洪水解析の改善
BlessemFlood21: Advancing Flood Analysis with a High-Resolution Georeferenced Dataset for Humanitarian Aid Support ( http://arxiv.org/abs/2407.05007v1 ) ライセンス: Link先を確認 | Vladyslav Polushko, Alexander Jenal, Jens Bongartz, Immanuel Weber, Damjan Hatic, Ronald Rösch, Thomas März, Markus Rauhut, Andreas Weinmann, | (参考訳) 洪水はますます世界的な脅威となり、緊急事態を引き起こし、インフラに深刻な被害を与えている。
危機の間、World Food Programmeのような組織は、遠隔で感知された画像(通常はドローンによって取得される)を使用して、迅速な状況分析を行い、救命行動の計画を立てる。
コンピュータビジョンツールは、画像の評価においてタスクフォースの専門家を現場で支援し、その効率を改善し、資源を戦略的に割り当てるために必要である。
我々はBlessemFlood21データセットを導入し、効率的な洪水検知ツールの研究を刺激する。
この画像は、2021年のエルフトシュタット=ブレセム洪水で取得され、高解像度でジオレファレンスなRGB-NIR画像で構成された。
得られたRGBデータセットでは、画像に詳細な水面を補足し、半教師付きヒト・イン・ザ・ループ技術によって得られる。
我々は、セマンティックセグメンテーションのための確立されたディープラーニングモデルのトレーニングとテストによりデータセットを評価する。
BlessemFlood21では、ラベル付き高解像度RGBデータと、RGB画像の洪水検出に適したアルゴリズムソリューションのさらなる開発のためのベースラインを提供します。
Floods are an increasingly common global threat, causing emergencies and severe damage to infrastructure. During crises, organisations such as the World Food Programme use remotely sensed imagery, typically obtained through drones, for rapid situational analysis to plan life-saving actions. Computer Vision tools are needed to support task force experts on-site in the evaluation of the imagery to improve their efficiency and to allocate resources strategically. We introduce the BlessemFlood21 dataset to stimulate research on efficient flood detection tools. The imagery was acquired during the 2021 Erftstadt-Blessem flooding event and consists of high-resolution and georeferenced RGB-NIR images. In the resulting RGB dataset, the images are supplemented with detailed water masks, obtained via a semi-supervised human-in-the-loop technique, where in particular the NIR information is leveraged to classify pixels as either water or non-water. We evaluate our dataset by training and testing established Deep Learning models for semantic segmentation. With BlessemFlood21 we provide labeled high-resolution RGB data and a baseline for further development of algorithmic solutions tailored to flood detection in RGB imagery. | 翻訳日:2024-07-09 21:28:00 公開日:2024-07-06 |
# T-CorresNet: 対応ポーリングクエリ生成戦略を備えたテンプレートガイド付き3Dポイントクラウドコンプリート
T-CorresNet: Template Guided 3D Point Cloud Completion with Correspondence Pooling Query Generation Strategy ( http://arxiv.org/abs/2407.05008v1 ) ライセンス: Link先を確認 | Fan Duan, Jiahao Yu, Li Chen, | (参考訳) ポイントクラウドは、自律運転や製造業など、様々な実用用途で一般的に使用されている。
しかしながら、これらの点雲は、限られた視点、スキャナの解像度、閉塞によって不完全性に悩まされることが多い。
したがって、欠落箇所の予測は重要な課題である。
本稿では,ポイントクラウド補完のための新しい手法を提案する。
球面テンプレートを用いて、粗い完全テンプレートの生成をガイドし、対応プール(Corres-Pooling)クエリジェネレータを介して動的クエリトークンを生成する。
具体的には、まずガウス球面テンプレートを部分入力に埋め込み、テンプレートを変換して入力に最もよく適合させることにより、粗い完全テンプレートを生成する。
次に、Corres-Poolingクエリジェネレータを使用して、粗いテンプレートを洗練し、完全なポイントプロキシを予測するために使用できる動的クエリトークンを生成する。
最後に、ファインテンプレートと予測点プロキシに基づいて、粗い粒度パラダイムに従ってFoldingNetで全点クラウドを生成する。
実験の結果、T-CorresNetはいくつかのベンチマークで最先端の手法よりも優れていた。
私たちのコードはhttps://github.com/df-boy/T-CorresNetで利用可能です。
Point clouds are commonly used in various practical applications such as autonomous driving and the manufacturing industry. However, these point clouds often suffer from incompleteness due to limited perspectives, scanner resolution and occlusion. Therefore the prediction of missing parts performs a crucial task. In this paper, we propose a novel method for point cloud completion. We utilize a spherical template to guide the generation of the coarse complete template and generate the dynamic query tokens through a correspondence pooling (Corres-Pooling) query generator. Specifically, we first generate the coarse complete template by embedding a Gaussian spherical template into the partial input and transforming the template to best match the input. Then we use the Corres-Pooling query generator to refine the coarse template and generate dynamic query tokens which could be used to predict the complete point proxies. Finally, we generate the complete point cloud with a FoldingNet following the coarse-to-fine paradigm, according to the fine template and the predicted point proxies. Experimental results demonstrate that our T-CorresNet outperforms the state-of-the-art methods on several benchmarks. Our Codes are available at https://github.com/df-boy/T-CorresNet. | 翻訳日:2024-07-09 21:28:00 公開日:2024-07-06 |
# PRANCE:Adaptive ViT推論のための共同トークン最適化と構造チャネル解析
PRANCE: Joint Token-Optimization and Structural Channel-Pruning for Adaptive ViT Inference ( http://arxiv.org/abs/2407.05010v1 ) ライセンス: Link先を確認 | Ye Li, Chen Tang, Yuan Meng, Jiajun Fan, Zenghao Chai, Xinzhu Ma, Zhi Wang, Wenwu Zhu, | (参考訳) 本稿では,アクティベートチャネルを協調的に最適化し,入力の特性に基づいてトークンを削減するビジョントランスフォーマー圧縮フレームワークであるPRANCEを紹介する。
具体的には、ある計算予算に対して適応的なトークン最適化戦略を活用し、統一されたデータとアーキテクチャの観点からViTの推論を加速することを目的としている。
しかし、この共同フレームワークはアーキテクチャ面と意思決定面の両方に課題をもたらす。
第一に、ViTは本質的に変数トークン推論をサポートしているが、変数チャネルの動的計算は容易ではない。
この制限を克服するため,多層自己認識層と多層パーセプトロン層の任意のチャネルをサポートするために,重み付け技術を用いたメタネットワークを提案する。
第二に、メタネットワークと入力データの構造を同時に最適化することは、非常に大きな決定空間を持つ組合せ最適化問題を構成する。
そこで我々は,効率的な意思決定のために,近似ポリシー最適化を用いた軽量セレクタを設計する。
さらに,ViTの推論プロセスをマルコフ決定プロセスとしてモデル化し,動作空間を著しく削減し,トレーニング中の遅延リワード問題を緩和する,新たな「結果対ゴー」トレーニング機構を導入する。
広範囲にわたる実験は、FLOPを約50%減らし、トークンの約10倍しか保持せず、損失のないTop-1の精度を達成できるPRANCE~の有効性を実証している。
さらに,本フレームワークは,プルーニングやマージング,シーケンシャルプルーニングマージング戦略など,さまざまなトークン最適化手法と互換性があることが示されている。
コードは \href{https://github.com/ChildTang/PRANCE}{https://github.com/ChildTang/PRANCE} で公開されている。
We introduce PRANCE, a Vision Transformer compression framework that jointly optimizes the activated channels and reduces tokens, based on the characteristics of inputs. Specifically, PRANCE~ leverages adaptive token optimization strategies for a certain computational budget, aiming to accelerate ViTs' inference from a unified data and architectural perspective. However, the joint framework poses challenges to both architectural and decision-making aspects. Firstly, while ViTs inherently support variable-token inference, they do not facilitate dynamic computations for variable channels. To overcome this limitation, we propose a meta-network using weight-sharing techniques to support arbitrary channels of the Multi-head Self-Attention and Multi-layer Perceptron layers, serving as a foundational model for architectural decision-making. Second, simultaneously optimizing the structure of the meta-network and input data constitutes a combinatorial optimization problem with an extremely large decision space, reaching up to around $10^{14}$, making supervised learning infeasible. To this end, we design a lightweight selector employing Proximal Policy Optimization for efficient decision-making. Furthermore, we introduce a novel "Result-to-Go" training mechanism that models ViTs' inference process as a Markov decision process, significantly reducing action space and mitigating delayed-reward issues during training. Extensive experiments demonstrate the effectiveness of PRANCE~ in reducing FLOPs by approximately 50\%, retaining only about 10\% of tokens while achieving lossless Top-1 accuracy. Additionally, our framework is shown to be compatible with various token optimization techniques such as pruning, merging, and sequential pruning-merging strategies. The code is available at \href{https://github.com/ChildTang/PRANCE}{https://github.com/ChildTang/PRANCE}. | 翻訳日:2024-07-09 21:28:00 公開日:2024-07-06 |
# 進歩と回帰 : ポストトレーニングにおける自己改善の逆転
Progress or Regress? Self-Improvement Reversal in Post-training ( http://arxiv.org/abs/2407.05013v1 ) ライセンス: Link先を確認 | Ting Wu, Xuefeng Li, Pengfei Liu, | (参考訳) 反復選好学習のようなポストトレーニング手法による自己改善は、人間の介入なしに大規模言語モデル(LLM)の問題解決能力(例えば、数学的推論)を向上させることが評価されている。
しかし、調査が深まるにつれ、これらの改善がより困難な問題の解決の進歩を真に表しているか、意図しない回帰につながるかを評価することが重要になる。
これを解決するために、我々は、自己改善のためのポストトレーニングパラダイムの根底にある拡張を精査するために、表面的なpass@1メトリックを超えて包括的な評価フレームワークを提案する。
様々な問題解決タスクに対する厳密な実験と分析を通じて、実験結果は、ベンチマークで改善されたパフォーマンスを示すモデルが、出力の多様性やアウト・オブ・ディストリビューション(OOD)の一般化のようなより広範な本質的な能力の低下をパラドックス的に示すという、'emph{self-improvement reversal} の現象を指摘した。
これらの結果から, ポストトレーニングによる現在の自己改善実践は, より複雑な問題に対処するためのモデルの装備に不十分であることが示唆された。
さらに, 自己改善LDMに対するemph{progress or regress}二分法を識別する上で, 重要な評価指標の必要性を強調した。
Self-improvement through post-training methods such as iterative preference learning has been acclaimed for enhancing the problem-solving capabilities (e.g., mathematical reasoning) of Large Language Models (LLMs) without human intervention. However, as exploration deepens, it becomes crucial to assess whether these improvements genuinely signify progress in solving more challenging problems or if they could lead to unintended regressions. To address this, we propose a comprehensive evaluative framework that goes beyond the superficial pass@1 metric to scrutinize the underlying enhancements of post-training paradigms for self-improvement. Through rigorous experimentation and analysis across diverse problem-solving tasks, the empirical results point out the phenomenon of \emph{self-improvement reversal}, where models showing improved performance across benchmarks will paradoxically exhibit declines in broader, essential capabilities, like output diversity and out-of-distribution (OOD) generalization. These findings indicate that current self-improvement practices through post-training are inadequate for equipping models to tackle more complex problems. Furthermore, they underscore the necessity of our critical evaluation metrics in discerning the \emph{progress or regress} dichotomy for self-improving LLMs. | 翻訳日:2024-07-09 21:28:00 公開日:2024-07-06 |
# なぜそれを知っているのか? 生物医学的質問への回答を参考に生成言語モデルを教える
How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions ( http://arxiv.org/abs/2407.05015v1 ) ライセンス: Link先を確認 | Bojana Bašaragin, Adela Ljajić, Darija Medvecki, Lorenzo Cassano, Miloš Košprdić, Nikola Milošević, | (参考訳) 大規模言語モデル(LLM)が最近,ユーザの質問に対するオンライン回答の主要なソースになっている。
雄弁な答えを提供する能力があるにもかかわらず、その正確さと信頼性は重大な課題となる。
これは特に、現実的に正しい答えを必要とするバイオメディシンのような敏感なドメインに当てはまる。
本稿では, バイオメディカル検索強化生成システム(RAG)を導入し, 生成した応答の信頼性を高める。
このシステムは、参照された質問回答のための微調整 LLM に基づいており、PubMed から取得した関連する抽象化は、プロンプトを介して LLM のコンテキストに渡される。
そのアウトプットはPubMedの抽象化に基づく回答であり、各ステートメントがそれに従って参照され、ユーザはその回答を検証できる。
検索システムはPubMedの検索エンジンに比べて23%の絶対的な改善を実現している。
小サンプルを手動で評価した結果,精巧なLCM成分はGPT-4 Turboに匹敵する結果が得られることがわかった。
我々は、Mistral-7B-instruct-v0.1とv0.2をベースとしたモデルと微調整モデルの微調整に使用するデータセットを公開している。
Large language models (LLMs) have recently become the leading source of answers for users' questions online. Despite their ability to offer eloquent answers, their accuracy and reliability can pose a significant challenge. This is especially true for sensitive domains such as biomedicine, where there is a higher need for factually correct answers. This paper introduces a biomedical retrieval-augmented generation (RAG) system designed to enhance the reliability of generated responses. The system is based on a fine-tuned LLM for the referenced question-answering, where retrieved relevant abstracts from PubMed are passed to LLM's context as input through a prompt. Its output is an answer based on PubMed abstracts, where each statement is referenced accordingly, allowing the users to verify the answer. Our retrieval system achieves an absolute improvement of 23% compared to the PubMed search engine. Based on the manual evaluation on a small sample, our fine-tuned LLM component achieves comparable results to GPT-4 Turbo in referencing relevant abstracts. We make the dataset used to fine-tune the models and the fine-tuned models based on Mistral-7B-instruct-v0.1 and v0.2 publicly available. | 翻訳日:2024-07-09 21:28:00 公開日:2024-07-06 |
# 空間的に異なるパラメータを持つ非保守系の偏微分方程式の量子アルゴリズム
Quantum algorithm for partial differential equations of non-conservative systems with spatially varying parameters ( http://arxiv.org/abs/2407.05019v1 ) ライセンス: Link先を確認 | Yuki Sato, Hiroyuki Tezuka, Ruho Kondo, Naoki Yamamoto, | (参考訳) 偏微分方程式(PDE)は熱伝達、流体流、電磁波などの様々な物理現象をモデル化するために重要である。
コンピュータ支援工学(CAE)では、製品性能の向上と開発コストの削減のために、細部分解能と大規模計算モデルを扱う能力が不可欠である。
しかし、特に空間的に変化する物質特性を持つシステムにおいて、大規模PDEを解くことは、重要な計算上の課題を提起する。
本論文では,ハミルトニアンシミュレーション(LCHS)法を用いて,空間的に異なるパラメータを持つ非保守系の2階線形PDEを解く量子アルゴリズムを提案する。
我々の手法は、これらのPDEを有限差分法による空間的離散化を通じて、キュービット作用素で表される通常の微分方程式に変換する。
次に,PDEの空間変化パラメータに対応する演算子を論理最小化法により効率的に構築するアルゴリズムを提案する。
また,テンソルネットワーク技術,特に行列積状態(MPS)を用いてLCHSの量子回路を実現するスケーラブルな手法を開発した。
空間的に異なるパラメータを持つ音響方程式と放散熱方程式に応用して本手法の有効性を検証した。
提案手法には,PDEのための量子回路を構築するための詳細なレシピ,PDEの空間的に変化するパラメータの効率的な符号化,LCHSのスケーラブルな実装などが含まれる。
Partial differential equations (PDEs) are crucial for modeling various physical phenomena such as heat transfer, fluid flow, and electromagnetic waves. In computer-aided engineering (CAE), the ability to handle fine resolutions and large computational models is essential for improving product performance and reducing development costs. However, solving large-scale PDEs, particularly for systems with spatially varying material properties, poses significant computational challenges. In this paper, we propose a quantum algorithm for solving second-order linear PDEs of non-conservative systems with spatially varying parameters, using the linear combination of Hamiltonian simulation (LCHS) method. Our approach transforms those PDEs into ordinary differential equations represented by qubit operators, through spatial discretization using the finite difference method. Then, we provide an algorithm that efficiently constructs the operator corresponding to the spatially varying parameters of PDEs via a logic minimization technique, which reduces the number of terms and subsequently the circuit depth. We also develop a scalable method for realizing a quantum circuit for LCHS, using a tensor-network-based technique, specifically a matrix product state (MPS). We validate our method with applications to the acoustic equation with spatially varying parameters and the dissipative heat equation. Our approach includes a detailed recipe for constructing quantum circuits for PDEs, leveraging efficient encoding of spatially varying parameters of PDEs and scalable implementation of LCHS, which we believe marks a significant step towards advancing quantum computing's role in solving practical engineering problems. | 翻訳日:2024-07-09 21:28:00 公開日:2024-07-06 |
# インクリメンタルマルチビューポイントクラウド登録
Incremental Multiview Point Cloud Registration ( http://arxiv.org/abs/2407.05021v1 ) ライセンス: Link先を確認 | Xiaoya Cheng, Yu Liu, Maojun Zhang, Shen Yan, | (参考訳) 本稿では,マルチビューポイントクラウド登録のための新しいアプローチを提案する。
グローバルなマルチビュー登録方式を採用する従来の研究とは違い,本研究では,スキャンを段階的に標準座標系に整列させるインクリメンタルパイプラインの採用を提案する。
具体的には、画像に基づく3D再構成からインスピレーションを得て、まずスキャン検索と幾何的検証を備えたスパーススキャングラフを構築した。
次に、初期化、次のスキャン選択と登録、トラック作成と継続、バンドル調整によるインクリメンタルな登録を行います。
さらに, センサレス整形器にはトラックリファインメントプロセスが組み込まれている。
このプロセスは、主に粗いマルチビューの登録を構築し、トラック上のキーポイントの位置を調整することによってモデルを洗練する。
実験により,提案フレームワークは3つのベンチマークデータセットにおいて,既存のマルチビュー登録手法より優れていることが示された。
コードはhttps://github.com/Choyaa/IncreMVR.comで入手できる。
In this paper, we present a novel approach for multiview point cloud registration. Different from previous researches that typically employ a global scheme for multiview registration, we propose to adopt an incremental pipeline to progressively align scans into a canonical coordinate system. Specifically, drawing inspiration from image-based 3D reconstruction, our approach first builds a sparse scan graph with scan retrieval and geometric verification. Then, we perform incremental registration via initialization, next scan selection and registration, Track create and continue, and Bundle Adjustment. Additionally, for detector-free matchers, we incorporate a Track refinement process. This process primarily constructs a coarse multiview registration and refines the model by adjusting the positions of the keypoints on the Track. Experiments demonstrate that the proposed framework outperforms existing multiview registration methods on three benchmark datasets. The code is available at https://github.com/Choyaa/IncreMVR. | 翻訳日:2024-07-09 21:28:00 公開日:2024-07-06 |
# 音韻的多言語評価のための原理的枠組み
A Principled Framework for Evaluating on Typologically Diverse Languages ( http://arxiv.org/abs/2407.05022v1 ) ライセンス: Link先を確認 | Esther Ploeger, Wessel Poelman, Andreas Holck Høeg-Petersen, Anders Schlichtkrull, Miryam de Lhoneux, Johannes Bjerva, | (参考訳) 個々の言語を超えて、多言語自然言語処理(NLP)の研究は、言語全体にわたってよく機能するモデルを開発することを目的としている。
しかし、世界中の言語でこれらのシステムを評価することは事実上不可能である。
汎用性を得るためには、代表言語サンプリングが不可欠である。
以前の研究は、一般化可能な多言語評価セットは、様々な類型的特性を持つ言語を含むべきであると主張している。
しかし、この点では「分類学的に多様」な言語サンプルが著しく異なっており、一般的なサンプリング法には欠陥があり矛盾がある。
そこで,本論文では,サンプルフレームが与えられた多種多様言語を選択するための言語サンプリングフレームワークについて述べる。
我々は,サンプリング手法を様々な指標と比較し,従来のNLP法と比較して,体系的手法が常に多種多様な言語選択を検索できることを見出した。
さらに,多言語モデル評価における一般化可能性に影響を及ぼし,NLP評価における多言語サンプリングの重要性を強調した。
Beyond individual languages, multilingual natural language processing (NLP) research increasingly aims to develop models that perform well across languages generally. However, evaluating these systems on all the world's languages is practically infeasible. To attain generalizability, representative language sampling is essential. Previous work argues that generalizable multilingual evaluation sets should contain languages with diverse typological properties. However, 'typologically diverse' language samples have been found to vary considerably in this regard, and popular sampling methods are flawed and inconsistent. We present a language sampling framework for selecting highly typologically diverse languages given a sampling frame, informed by language typology. We compare sampling methods with a range of metrics and find that our systematic methods consistently retrieve more typologically diverse language selections than previous methods in NLP. Moreover, we provide evidence that this affects generalizability in multilingual model evaluation, emphasizing the importance of diverse language sampling in NLP evaluation. | 翻訳日:2024-07-09 21:28:00 公開日:2024-07-06 |
# 高忠実度手術シーン再建のための変形性3Dガウスアン
SurgicalGaussian: Deformable 3D Gaussians for High-Fidelity Surgical Scene Reconstruction ( http://arxiv.org/abs/2407.05023v1 ) ライセンス: Link先を確認 | Weixing Xie, Junfeng Yao, Xianpeng Cao, Qiqin Lin, Zerui Tang, Xiao Dong, Xiaohu Guo, | (参考訳) 内視鏡的ビデオにおける変形性組織の動的再構成は、ロボット支援手術の鍵となる技術である。
神経放射野(NeRF)に基づく最近の再建法は,手術シーンの再構築において顕著な成果を上げている。
しかし、暗黙の表現に基づいて、NeRFはシーン内のオブジェクトの複雑な詳細を捉えるのに苦労し、リアルタイムレンダリングを達成できない。
また, 手術シーンの再建に際し, 制限された単一視知覚と閉鎖楽器も特別な課題として提案されている。
これらの課題に対処するために,動的手術シーンをモデル化する変形可能な3次元ガウス切削法であるオペレーショナルガウス法を開発した。
提案手法は, 軟部組織の時空間的特徴を前方切削変形MLPと正則化を用いてモデル化し, 局所的な3次元ガウスを一貫した運動に順応するように拘束する。
深度初期化戦略とツールマスク誘導訓練により,手術器具の除去と高忠実度手術シーンの再構築が可能となった。
さまざまな手術ビデオの実験を通じて、ネットワークは、レンダリング品質、レンダリング速度、GPU使用率など、多くの面で既存の手法よりも優れています。
プロジェクトのページはhttps://surgicalgaussian.github.io.comにある。
Dynamic reconstruction of deformable tissues in endoscopic video is a key technology for robot-assisted surgery. Recent reconstruction methods based on neural radiance fields (NeRFs) have achieved remarkable results in the reconstruction of surgical scenes. However, based on implicit representation, NeRFs struggle to capture the intricate details of objects in the scene and cannot achieve real-time rendering. In addition, restricted single view perception and occluded instruments also propose special challenges in surgical scene reconstruction. To address these issues, we develop SurgicalGaussian, a deformable 3D Gaussian Splatting method to model dynamic surgical scenes. Our approach models the spatio-temporal features of soft tissues at each time stamp via a forward-mapping deformation MLP and regularization to constrain local 3D Gaussians to comply with consistent movement. With the depth initialization strategy and tool mask-guided training, our method can remove surgical instruments and reconstruct high-fidelity surgical scenes. Through experiments on various surgical videos, our network outperforms existing method on many aspects, including rendering quality, rendering speed and GPU usage. The project page can be found at https://surgicalgaussian.github.io. | 翻訳日:2024-07-09 21:28:00 公開日:2024-07-06 |
# 構成性をテストする
Testing Compositionality ( http://arxiv.org/abs/2407.05028v1 ) ライセンス: Link先を確認 | Gijs van Cuyck, Lars van Arragon, Jan Tretmans, | (参考訳) 構成性は、コンポーネントに取り組むことで、大きなシステムの操作をサポートする。
モデルベースのテストでは、大規模なシステムはコンポーネントをモデル化してテストすることでテストすることができる。
これまでの研究[13]では、仕様モデルの相互受容を定義し、モデルベースのテストにおいて、これが構成性に十分な条件であることを証明した。
本稿では,仕様書の相互受理を検証するためのアルゴリズムと,環境適合性 [7,8] の考え方に触発されて,ブラックボックス実装の相互受理を検証するための音響および網羅的モデルベース試験手法を提案する。
その結果, 大規模システムの正当性は, コンポーネント仕様に従って, 環境仕様に従って, コンポーネント実装をテストすることによって決定できることがわかった。
Compositionality supports the manipulation of large systems by working on their components. For model-based testing, this means that large systems can be tested by modelling and testing their components: passing tests for all components implies passing tests for the whole system. In previous work [13], we defined mutual acceptance for specification models and proved that this is a sufficient condition for compositionality in model-based testing. In this paper, we present an algorithm for verifying mutual acceptance on specifications and a sound and exhaustive model-based test procedure for checking mutual acceptance on black-box implementations, both inspired by the idea of environmental conformance [7,8]. The result is that correctness of large systems can be determined by testing the component implementations for conformance to their component specification and for environmental conformance to the specification of their environment. | 翻訳日:2024-07-09 21:18:15 公開日:2024-07-06 |
# GCON: 客観的摂動による微分プライベートグラフ畳み込みネットワーク
GCON: Differentially Private Graph Convolutional Network via Objective Perturbation ( http://arxiv.org/abs/2407.05034v1 ) ライセンス: Link先を確認 | Jianxin Wei, Yizheng Zhu, Xiaokui Xiao, Ergute Bao, Yin Yang, Kuntai Cai, Beng Chin Ooi, | (参考訳) Graph Convolutional Networks(GCNs)は、医療、交通、金融など、グラフ分析の幅広い応用で人気のある機械学習モデルである。
他のニューラルネットワークと同様に、GCNはそのモデルの重みを通してトレーニングデータの一部を記憶することができる。
したがって、基礎となるグラフデータが対人関係などの機密情報を含んでいる場合、プライバシー保護措置なしで訓練されたGCNを利用してプライベートデータを抽出し、GDPRのようなプライバシー規制に違反する可能性がある。
このような攻撃から守るためには、トレーニングされたモデルの重みにランダムノイズを注入することで、強力なプライバシ保護を提供する厳格なフレームワークである差分プライバシー(DP)でGCNをトレーニングする、という有望なアプローチがある。
しかし、DPの下で大きなグラフニューラルネットワークをトレーニングするのは非常に難しい作業である。
既存のソリューションでは、グラフトポロジにランダムな摂動を導入するか、ネットワークのメッセージパロジの激しい歪みを引き起こすか、あるいは各近傍のアグリゲーション操作にランダム性を注入し、GCNが複数のアグリゲーションを実行すると、高いノイズスケールが発生する。
そこで我々は,GCNをエッジ差分プライバシでトレーニングするための新しい,効果的なソリューションであるGCONを提案する。
一番のアイデアは
(i)GCNトレーニングプロセスを凸最適化問題に変換し、
(2)DPを満たすために目的関数を摂動する古典的考え方を適用する。
複数のベンチマークデータセットを使用した大規模な実験では、GCONが既存のソリューションに対して、さまざまな設定で一貫性と優れたパフォーマンスを示している。
Graph Convolutional Networks (GCNs) are a popular machine learning model with a wide range of applications in graph analytics, including healthcare, transportation, and finance. Similar to other neural networks, a GCN may memorize parts of the training data through its model weights. Thus, when the underlying graph data contains sensitive information such as interpersonal relationships, a GCN trained without privacy-protection measures could be exploited to extract private data, leading to potential violations of privacy regulations such as GDPR. To defend against such attacks, a promising approach is to train the GCN with differential privacy (DP), which is a rigorous framework that provides strong privacy protection by injecting random noise into the trained model weights. However, training a large graph neural network under DP is a highly challenging task. Existing solutions either introduce random perturbations in the graph topology, which leads to severe distortions of the network's message passing, or inject randomness into each neighborhood aggregation operation, which leads to a high noise scale when the GCN performs multiple levels of aggregations. Motivated by this, we propose GCON, a novel and effective solution for training GCNs with edge differential privacy. The main idea is to (i) convert the GCN training process into a convex optimization problem, and then (ii) apply the classic idea of perturbing the objective function to satisfy DP. Extensive experiments using multiple benchmark datasets demonstrate GCON's consistent and superior performance over existing solutions in a wide variety of settings. | 翻訳日:2024-07-09 21:18:15 公開日:2024-07-06 |
# テキスト中心多モードアライメントのロバスト性を高める
Enhance the Robustness of Text-Centric Multimodal Alignments ( http://arxiv.org/abs/2407.05036v1 ) ライセンス: Link先を確認 | Ting-Yu Yen, Yun-Da Tsai, Keng-Te Liao, Shou-De Lin, | (参考訳) 異なるモダリティを一般的なテキストに変換することで、大きな言語モデル(LLM)の入力プロンプトとして機能する。
このテキスト中心のアプローチは、テキストのユニークな性質をモダリティ空間として活用し、多様な入力を統一されたテキスト表現に変換する。
これにより、下流モデルは様々なモーダル入力を効果的に解釈できる。
本研究は,文章中心のアライメント手法が下流のロバスト性を損なうことを明らかにするために,欠落したエントリやノイズ,あるいは欠落したモダリティの存在下でのマルチモーダル表現の品質とロバスト性を評価する。
この問題に対処するために、異なる設定における様々なモーダル性にまたがる従来の手法と比較して、優れたロバスト性を実現する新しいテキスト中心アプローチを提案する。
本稿は,マルチモーダル表現の堅牢性と適応性を高めるためのこのアプローチの可能性を強調し,動的および実世界のアプリケーションに対して有望なソリューションを提供する。
Converting different modalities into general text, serving as input prompts for large language models (LLMs), is a common method to align multimodal models when there is limited pairwise data. This text-centric approach leverages the unique properties of text as a modality space, transforming diverse inputs into a unified textual representation. This enables downstream models to effectively interpret various modal inputs. This study assesses the quality and robustness of multimodal representations in the presence of missing entries, noise, or absent modalities, revealing that current text-centric alignment methods compromise downstream robustness. To address this issue, we propose a new text-centric approach that achieves superior robustness compared to previous methods across various modalities in different settings. Our findings highlight the potential of this approach to enhance the robustness and adaptability of multimodal representations, offering a promising solution for dynamic and real-world applications. | 翻訳日:2024-07-09 21:18:15 公開日:2024-07-06 |
# コード不足とそれ以外:データプルーニングによるコード生成のための効率的なLLMファインタニング
Code Less, Align More: Efficient LLM Fine-tuning for Code Generation with Data Pruning ( http://arxiv.org/abs/2407.05040v1 ) ライセンス: Link先を確認 | Yun-Da Tsai, Mingjie Liu, Haoxing Ren, | (参考訳) コード生成のための大規模言語モデル(LLM)をターゲットにした最近の研究は、合成コード生成によるトレーニングデータの量の増加が、しばしば例外的なパフォーマンスをもたらすことを示した。
本稿では,LLMのためのモデルトレーニングの効率化を目的としたデータ解析手法について検討する。
各種クラスタリングとプルーニングのメトリクスを統合して、生成されたコードの正確性や機能を損なうことなく、トレーニングデータを選択的に削減する手法を提案する。
人工データ生成において重要な冗長性を観察し, 実験の結果, ベンチマーク性能はデータの10%のトレーニングでほぼ維持可能であることが示された。
さらに、トレーニングデータの適度なプルーニングにより、ベンチマーク結果の一貫した改善を観察する。
実験により,これらのプルーニング戦略は,必要な計算資源を削減するだけでなく,全体的な品質コード生成を向上することが示された。
Recent work targeting large language models (LLMs) for code generation demonstrated that increasing the amount of training data through synthetic code generation often leads to exceptional performance. In this paper we explore data pruning methods aimed at enhancing the efficiency of model training specifically for code LLMs. We present techniques that integrate various clustering and pruning metrics to selectively reduce training data without compromising the accuracy and functionality of the generated code. We observe significant redundancies in synthetic training data generation, where our experiments demonstrate that benchmark performance can be largely preserved by training on only 10% of the data. Moreover, we observe consistent improvements in benchmark results through moderate pruning of the training data. Our experiments show that these pruning strategies not only reduce the computational resources needed but also enhance the overall quality code generation. | 翻訳日:2024-07-09 21:18:15 公開日:2024-07-06 |
# 機能秘密共有による顔認識のためのロバスト肌色駆動型プライバシ
Robust Skin Color Driven Privacy Preserving Face Recognition via Function Secret Sharing ( http://arxiv.org/abs/2407.05045v1 ) ライセンス: Link先を確認 | Dong Han, Yufan Jiang, Yong Li, Ricardo Mendes, Joachim Denzler, | (参考訳) 本研究では,顔画像からの純肌色パッチを付加情報として活用し,補助肌色特徴抽出器と顔認識モデルを並列に訓練し,最先端(SOTA)プライバシ保護顔認証(PPFR)システムの性能向上を図る。
我々のソリューションは、ブラックボックス攻撃およびGANに基づく画像復元に対して堅牢である。
提案したコサイン類似性計算は,サーバ側に保存された保護されたプリ計算済みの埋め込みを直接リークする可能性がある。
本稿では,Function Secret Sharing (FSS) を用いた顔埋め込み比較プロトコルを提案する。
さらに,提案プロトコルはシークレット共有(SS)ベースのプロトコルよりも効率的であることを示す。
In this work, we leverage the pure skin color patch from the face image as the additional information to train an auxiliary skin color feature extractor and face recognition model in parallel to improve performance of state-of-the-art (SOTA) privacy-preserving face recognition (PPFR) systems. Our solution is robust against black-box attacking and well-established generative adversarial network (GAN) based image restoration. We analyze the potential risk in previous work, where the proposed cosine similarity computation might directly leak the protected precomputed embedding stored on the server side. We propose a Function Secret Sharing (FSS) based face embedding comparison protocol without any intermediate result leakage. In addition, we show in experiments that the proposed protocol is more efficient compared to the Secret Sharing (SS) based protocol. | 翻訳日:2024-07-09 21:18:15 公開日:2024-07-06 |
# MFE-ETP:マルチモーダル・ファンデーション・モデルのための総合的評価ベンチマーク
MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning ( http://arxiv.org/abs/2407.05047v1 ) ライセンス: Link先を確認 | Min Zhang, Jianye Hao, Xian Fu, Peilong Han, Hao Zhang, Lei Shi, Hongyao Tang, Yan Zheng, | (参考訳) 近年、MFM(Multi-modal Foundation Models)とEmbodied Artificial Intelligence(EAI)は、前例のないペースで並んで進んでいる。
この2つの統合は、AI研究コミュニティから大きな注目を集めている。
本研究は, 具体的タスク計画において, MFM s の性能を深く, 包括的に評価することを目的としており, この領域におけるその能力と限界に光を当てることを目的としている。
そこで本研究では,まず,MFMの4つの重要な機能 – オブジェクト理解,時空間認識,タスク理解,具体的推論 – をカプセル化する,系統的評価フレームワークを開発する。
次に,MFE-ETPと呼ばれる新しいベンチマークを提案し,その複雑かつ可変なタスクシナリオ,典型的には多様だが多様なタスクタイプ,難易度が異なるタスクインスタンス,複数の具体的質問応答から具体的タスク推論まで多種多様なテストケースタイプを特徴付ける。
最後に、提案したベンチマーク上で複数のMFMの自動テストを可能にする、シンプルで使いやすい自動評価プラットフォームを提供する。
ベンチマークと評価プラットフォームを用いて、いくつかの最先端のMFMを評価し、それらが人間レベルの性能に著しく遅れていることを発見した。
MFE-ETPは、現実世界のタスクに関連する高品質で大規模で挑戦的なベンチマークである。
In recent years, Multi-modal Foundation Models (MFMs) and Embodied Artificial Intelligence (EAI) have been advancing side by side at an unprecedented pace. The integration of the two has garnered significant attention from the AI research community. In this work, we attempt to provide an in-depth and comprehensive evaluation of the performance of MFM s on embodied task planning, aiming to shed light on their capabilities and limitations in this domain. To this end, based on the characteristics of embodied task planning, we first develop a systematic evaluation framework, which encapsulates four crucial capabilities of MFMs: object understanding, spatio-temporal perception, task understanding, and embodied reasoning. Following this, we propose a new benchmark, named MFE-ETP, characterized its complex and variable task scenarios, typical yet diverse task types, task instances of varying difficulties, and rich test case types ranging from multiple embodied question answering to embodied task reasoning. Finally, we offer a simple and easy-to-use automatic evaluation platform that enables the automated testing of multiple MFMs on the proposed benchmark. Using the benchmark and evaluation platform, we evaluated several state-of-the-art MFMs and found that they significantly lag behind human-level performance. The MFE-ETP is a high-quality, large-scale, and challenging benchmark relevant to real-world tasks. | 翻訳日:2024-07-09 21:18:15 公開日:2024-07-06 |
# 組み合わせデータ駆動法による準ポテンシャルのスパース同定
Sparse identification of quasipotentials via a combined data-driven method ( http://arxiv.org/abs/2407.05050v1 ) ライセンス: Link先を確認 | Bo Lin, Pierpaolo Belardinelli, | (参考訳) 準ポテンシャル関数は、非線形力学系の準安定状態からの脱出機構の理解と予測を可能にする。
この関数は、非階調系のポテンシャル関数の自然な拡張として機能し、最大極大遷移経路、遷移速度、システムの期待終了時間などの重要な特性を明らかにする。
ここでは、ニューラルネットワークとスパース回帰アルゴリズムという2つのデータ駆動手法を組み合わせて機械学習を活用し、擬ポテンシャル関数の記号表現を得る。
鍵となる考え方は、まずニューラルネットワークを用いて基礎となる力学を支配するベクトル場の直交分解を決定し、次に分解の下り坂と循環成分を象徴的に解釈することである。
これらの関数は、数学的制約の追加と同時に回帰される。
提案手法は, 未知の正準ポテンシャルモデルと, ナノメカニカル共振器のダイナミックスに対して, 擬似準ポテンシャル方程式を求めるものである。
解析形式は準安定状態の安定性に直接アクセスし、重要な計算上の優位性を持つ稀な事象を予測する。
データ駆動型アプローチは、変動するダイナミクスを評価する幅広いアプリケーションにとって興味深いものです。
The quasipotential function allows for comprehension and prediction of the escape mechanisms from metastable states in nonlinear dynamical systems. This function acts as a natural extension of the potential function for non-gradient systems and it unveils important properties such as the maximum likelihood transition paths, transition rates and expected exit times of the system. Here, we leverage on machine learning via the combination of two data-driven techniques, namely a neural network and a sparse regression algorithm, to obtain symbolic expressions of quasipotential functions. The key idea is first to determine an orthogonal decomposition of the vector field that governs the underlying dynamics using neural networks, then to interpret symbolically the downhill and circulatory components of the decomposition. These functions are regressed simultaneously with the addition of mathematical constraints. We show that our approach discovers a parsimonious quasipotential equation for an archetypal model with a known exact quasipotential and for the dynamics of a nanomechanical resonator. The analytical forms deliver direct access to the stability of the metastable states and predict rare events with significant computational advantages. Our data-driven approach is of interest for a wide range of applications in which to assess the fluctuating dynamics. | 翻訳日:2024-07-09 21:18:15 公開日:2024-07-06 |
# BrainMetDetect: 放射線特徴と機械学習アルゴリズムを用いた脳転移MRIデータからの原発性腫瘍の予測
BrainMetDetect: Predicting Primary Tumor from Brain Metastasis MRI Data Using Radiomic Features and Machine Learning Algorithms ( http://arxiv.org/abs/2407.05051v1 ) ライセンス: Link先を確認 | Hamidreza Sadeghsalehi, | (参考訳) 目的: がん患者では脳転移(BM)が一般的であり, 原発巣の決定は治療に不可欠である。
本研究は, 放射能特徴と高度な機械学習アルゴリズムを用いて, BM MRIデータから一次腫瘍部位を予測することを目的とする。
方法: Ocana-Tienda et al (2023) の総括的データセットを用いて, BM75例のMRIおよび臨床データを用いた。
造影T1強調画像から放射線学的特徴を抽出した。
GINIインデックスを用いて特徴選択を行い、一貫したスケーリングを保証するためにデータ正規化を適用した。
FOX (Fox Optimizationr) アルゴリズムを用いて, パラメータ最適化と非パラメータ最適化を併用したランダムフォレストとXGBoostの分類器を開発し, 評価した。
モデル解釈性はSHAP(SHapley Additive exPlanations)値を用いて向上した。
結果: ベースラインのランダムフォレストモデルは0.85の精度を達成し、FOX最適化により0.93に改善された。
XGBoostモデルの初期精度は0.96で、最適化後に0.99に向上した。
SHAP分析では、最も影響力のある放射能特性がモデルの予測に寄与していることが判明した。
FOX最適化XGBoostモデルは精度、リコール、F1スコア0.99で最高の性能を示した。
結論: この研究は, BM MRIデータから, 放射線学的特徴と機械学習を用いて原発巣を推定する効果を実証した。
FOX最適化アルゴリズムはモデル性能を大幅に向上させ、SHAPは機能の重要性に関する貴重な洞察を提供した。
これらの知見は、診断精度の向上とパーソナライズされた治療計画のために、放射線学と機械学習を臨床実践に統合する可能性を強調した。
Objective: Brain metastases (BMs) are common in cancer patients and determining the primary tumor site is crucial for effective treatment. This study aims to predict the primary tumor site from BM MRI data using radiomic features and advanced machine learning algorithms. Methods: We utilized a comprehensive dataset from Ocana-Tienda et al. (2023) comprising MRI and clinical data from 75 patients with BMs. Radiomic features were extracted from post-contrast T1-weighted MRI sequences. Feature selection was performed using the GINI index, and data normalization was applied to ensure consistent scaling. We developed and evaluated Random Forest and XGBoost classifiers, both with and without hyperparameter optimization using the FOX (Fox optimizer) algorithm. Model interpretability was enhanced using SHAP (SHapley Additive exPlanations) values. Results: The baseline Random Forest model achieved an accuracy of 0.85, which improved to 0.93 with FOX optimization. The XGBoost model showed an initial accuracy of 0.96, increasing to 0.99 after optimization. SHAP analysis revealed the most influential radiomic features contributing to the models' predictions. The FOX-optimized XGBoost model exhibited the best performance with a precision, recall, and F1-score of 0.99. Conclusion: This study demonstrates the effectiveness of using radiomic features and machine learning to predict primary tumor sites from BM MRI data. The FOX optimization algorithm significantly enhanced model performance, and SHAP provided valuable insights into feature importance. These findings highlight the potential of integrating radiomics and machine learning into clinical practice for improved diagnostic accuracy and personalized treatment planning. | 翻訳日:2024-07-09 21:18:15 公開日:2024-07-06 |
# コントラスト学習を伴うASEAN言語のための言語間単語アライメント
Cross-Lingual Word Alignment for ASEAN Languages with Contrastive Learning ( http://arxiv.org/abs/2407.05054v1 ) ライセンス: Link先を確認 | Jingshen Zhang, Xinying Qiu, Teng Shen, Wenyu Wang, Kailin Zhang, Wenhe Feng, | (参考訳) 言語間単語アライメントは、特に低リソース言語において、様々な自然言語処理タスクにおいて重要な役割を果たす。
近年,BiLSTMを用いたエンコーダデコーダモデルを提案する。
しかし、それらのモデルは単語埋め込み空間の類似性のみを考慮し、単語埋め込みの違いを明示的にモデル化しない。
この制限に対処するため、BiLSTMベースのエンコーダデコーダフレームワークにコントラスト学習を導入することを提案する。
提案手法では,言語間埋め込み空間における単語対の違いを学習するために,複数視点のネガティブサンプリング戦略を導入する。
我々は,ラオス語,ベトナム語,タイ語,インドネシア語という4つのASEAN言語にまたがる5つのバイリンガルアライメントデータセットを用いて,我々のモデルを評価した。
実験結果から,コントラスト学習の統合により,すべてのデータセットにおける単語アライメント精度が向上し,低リソースシナリオにおける提案手法の有効性が確認された。
我々は、ASEANまたはより低リソースな単語アライメントに関する将来の研究を支援するために、データセットとコードをリリースします。
Cross-lingual word alignment plays a crucial role in various natural language processing tasks, particularly for low-resource languages. Recent study proposes a BiLSTM-based encoder-decoder model that outperforms pre-trained language models in low-resource settings. However, their model only considers the similarity of word embedding spaces and does not explicitly model the differences between word embeddings. To address this limitation, we propose incorporating contrastive learning into the BiLSTM-based encoder-decoder framework. Our approach introduces a multi-view negative sampling strategy to learn the differences between word pairs in the shared cross-lingual embedding space. We evaluate our model on five bilingual aligned datasets spanning four ASEAN languages: Lao, Vietnamese, Thai, and Indonesian. Experimental results demonstrate that integrating contrastive learning consistently improves word alignment accuracy across all datasets, confirming the effectiveness of the proposed method in low-resource scenarios. We will release our data set and code to support future research on ASEAN or more low-resource word alignment. | 翻訳日:2024-07-09 21:18:15 公開日:2024-07-06 |
# コンステレーションアプローチによる確率的議論へのアルゴリズム的アプローチの適応
Advancing Algorithmic Approaches to Probabilistic Argumentation under the Constellation Approach ( http://arxiv.org/abs/2407.05058v1 ) ライセンス: Link先を確認 | Andrei Popescu, Johannes P. Wallner, | (参考訳) 議論的形式における非現実的で矛盾する知識との推論は、計算的議論において重要な研究分野である。
様々な形の不確実性の下での推論は、自動議論的推論の鍵となる特徴と難しい障壁である。
確率を用いた議論的推論は一般に高い計算複雑性に直面しており、特にいわゆるコンステレーションアプローチではそうである。
本稿では,この障害を克服するためのアルゴリズム的アプローチを開発する。
我々は、既存の複雑性結果を洗練し、与えられた集合が拡張である確率を計算し、引数が許容されるという2つの主要な推論タスクが複雑さを分散させることを示す: 前者は#P完全であり、後者は根底にある数え上げ問題を考えると#-dot-NP完全である。
本稿では,木分割操作の動的プログラミングを用いて,一組の引数が完全拡張である確率を計算した複雑なタスクのアルゴリズムを提案する。
実験的評価は我々のアプローチの可能性を示唆している。
Reasoning with defeasible and conflicting knowledge in an argumentative form is a key research field in computational argumentation. Reasoning under various forms of uncertainty is both a key feature and a challenging barrier for automated argumentative reasoning. It was shown that argumentative reasoning using probabilities faces in general high computational complexity, in particular for the so-called constellation approach. In this paper, we develop an algorithmic approach to overcome this obstacle. We refine existing complexity results and show that two main reasoning tasks, that of computing the probability of a given set being an extension and an argument being acceptable, diverge in their complexity: the former is #P-complete and the latter is #-dot-NP-complete when considering their underlying counting problems. We present an algorithm for the complex task of computing the probability of a set of arguments being a complete extension by using dynamic programming operating on tree-decompositions. An experimental evaluation shows promise of our approach. | 翻訳日:2024-07-09 21:18:15 公開日:2024-07-06 |
# 2次元ブラウン橋拡散モデルを用いたスライス一貫性3次元脳CT-MRI変換
Slice-Consistent 3D Volumetric Brain CT-to-MRI Translation with 2D Brownian Bridge Diffusion Model ( http://arxiv.org/abs/2407.05059v1 ) ライセンス: Link先を確認 | Kyobin Choo, Youngjun Jun, Mijin Yun, Seong Jae Hwang, | (参考訳) 神経イメージングでは、一般的に、脳のCTはMRIよりも費用効率が高く、アクセス可能な画像の選択肢である。
それにもかかわらず、CTは低い軟質のコントラストと高いノイズレベルを示し、構造的明瞭度は低い。
これに対し、医用画像から画像への翻訳(I2I)は、より手軽に利用できるCTを活用してMRIを構築することが、有望な解決策となる。
特に、拡散モデル(DM)は近年パワーハウスとして上昇しているが、医療用I2Iにはいくつかの注意点がある。
第一に、ランダムノイズサンプリングによるDMs固有の確率性は、CTを忠実に反映した一貫したMRI生成を保証できない。
第2に, 医用画像で一般的な3Dボリューム画像では, 2D DMを選択的に用いた場合, スライス不整合, 例えば異常な構造変化, 明るさ変化が生じる。
3D DMは存在するが、大きなトレーニングコストとデータ依存はためらいをもたらす。
そこで本研究では,2次元ブラウン橋拡散モデルに対する新しいスタイルキー条件付け (SKC) とスライス間軌道アライメント (ISTA) サンプリングを提案する。
具体的には、SKCはスライス間の一貫した画像スタイル(例えばコントラスト)を保証し、ISTAは各スライスを独立してサンプリングし、決定論的にスタイルと形状に整合した3D CT-to-MRI変換を実現する。
我々の知る限り、この研究は、アーキテクチャモデルが追加されていない2D DMのみに基づいて、高品質な3D医療用I2Iを初めて達成した。
実験の結果,既存の2Dおよび3Dベースラインよりも優れた3DメディカルI2Iが,社内CT-MRIデータセットとBraTS2023FLAIR-T1 MRIデータセットを用いて得られた。
In neuroimaging, generally, brain CT is more cost-effective and accessible imaging option compared to MRI. Nevertheless, CT exhibits inferior soft-tissue contrast and higher noise levels, yielding less precise structural clarity. In response, leveraging more readily available CT to construct its counterpart MRI, namely, medical image-to-image translation (I2I), serves as a promising solution. Particularly, while diffusion models (DMs) have recently risen as a powerhouse, they also come with a few practical caveats for medical I2I. First, DMs' inherent stochasticity from random noise sampling cannot guarantee consistent MRI generation that faithfully reflects its CT. Second, for 3D volumetric images which are prevalent in medical imaging, naively using 2D DMs leads to slice inconsistency, e.g., abnormal structural and brightness changes. While 3D DMs do exist, significant training costs and data dependency bring hesitation. As a solution, we propose novel style key conditioning (SKC) and inter-slice trajectory alignment (ISTA) sampling for the 2D Brownian bridge diffusion model. Specifically, SKC ensures a consistent imaging style (e.g., contrast) across slices, and ISTA interconnects the independent sampling of each slice, deterministically achieving style and shape consistent 3D CT-to-MRI translation. To the best of our knowledge, this study is the first to achieve high-quality 3D medical I2I based only on a 2D DM with no extra architectural models. Our experimental results show superior 3D medical I2I than existing 2D and 3D baselines, using in-house CT-MRI dataset and BraTS2023 FLAIR-T1 MRI dataset. | 翻訳日:2024-07-09 21:18:15 公開日:2024-07-06 |
# オープンワールド, オープンボキャブラリセマンティックセマンティックセグメンテーションのためのテストタイムコントラストの概念に関する研究
A Study of Test-time Contrastive Concepts for Open-world, Open-vocabulary Semantic Segmentation ( http://arxiv.org/abs/2407.05061v1 ) ライセンス: Link先を確認 | Monika Wysoczańska, Antonin Vobecky, Amaia Cardiel, Tomasz Trzciński, Renaud Marlet, Andrei Bursuc, Oriane Siméoni, | (参考訳) 最近のVLMは、両方のモダリティを整合させるために大量の画像テキストペアで事前訓練されており、オープン語彙セマンティックセマンティックセグメンテーションへの道を開いた。
任意のテキストクエリセットが与えられた場合、画像領域は特徴空間内で最も近いクエリに割り当てられる。
しかし、通常の設定では、ユーザーがイメージで起こりうるすべての視覚概念、通常ベンチマークデータセットのクラスをリストアップし、互いにネガティブに振る舞うことを期待している。
ここでは、テキストのプロンプトとその他何も考慮し、単一の概念をセグメント化するより難しいシナリオを考えます。
提案手法は,一般的な「背景」テキストとは対照的に,VLMのトレーニングセットにおけるテキストの分散や,LLMプロンプトの工法を利用した,クエリ固有のテストタイムコントラストテキストの概念を生成する方法が異なる。
我々は、新しい特定の指標を用いて、我々のアプローチの関連性を示す。
Recent VLMs, pre-trained on large amounts of image-text pairs to align both modalities, have opened the way to open-vocabulary semantic segmentation. Given an arbitrary set of textual queries, image regions are assigned the closest query in feature space. However, the usual setup expects the user to list all possible visual concepts that may occur in the image, typically all classes of benchmark datasets, that act as negatives to each other. We consider here the more challenging scenario of segmenting a single concept, given a textual prompt and nothing else. To achieve good results, besides contrasting with the generic 'background' text, we study different ways to generate query-specific test-time contrastive textual concepts, which leverage either the distribution of text in the VLM's training set or crafted LLM prompts. We show the relevance of our approach using a new, specific metric. | 翻訳日:2024-07-09 21:18:15 公開日:2024-07-06 |
# リバースエンジニアリングによるミニFSファイルシステム
Reverse Engineered MiniFS File System ( http://arxiv.org/abs/2407.05064v1 ) ライセンス: Link先を確認 | Dmitrii Belimov, Evgenii Vinogradov, | (参考訳) デジタル接続が日々の生活に根ざしている時代において、Wi-Fiアクセスポイント(AP)のセキュリティは重要な懸念事項である。
本稿では, TP-Link の AC1900 WiFi ルータにある MiniFS などのプロプライエタリなファイルシステムを用いて, Wi-Fi AP 固有の脆弱性に対処する。
リバースエンジニアリングにより、MiniFSの構造と運用が明らかになり、これまで不透明だったファイルシステムの理解が大幅に進歩した。
我々の調査は、MiniFSのアーキテクチャだけでなく、いくつかの秘密鍵を特定し、暗号化保護の欠如を浮き彫りにしている。
これらの知見は、相互接続された環境でのセキュリティ・バイ・オブ・オブ・キュラティのプラクティスのリスクを強調した、より広範なセキュリティ上の脆弱性を示している。
まず、ファイルシステムの構造に基づいて、MiniFSの抽出と分析のための方法論を開発し、潜在的な脆弱性の特定と軽減を容易にする。
第2に、WiFi APsのセキュリティ、特に同様のプロプライエタリなシステムで動作するものについて、さらなる研究の基盤を築き上げています。
本研究は,ファームウェア分析における透明性とコミュニティの関与を重要視することにより,よりセキュアなネットワークデバイスの開発に寄与し,デジタルインフラ全体のセキュリティ姿勢を高める。
In an era where digital connectivity is increasingly foundational to daily life, the security of Wi-Fi Access Points (APs) is a critical concern. This paper addresses the vulnerabilities inherent in Wi-Fi APs, with a particular focus on those using proprietary file systems like MiniFS found in TP-Link's AC1900 WiFi router. Through reverse engineering, we unravel the structure and operation of MiniFS, marking a significant advancement in our understanding of this previously opaque file system. Our investigation reveals not only the architecture of MiniFS but also identifies several private keys and underscores a concerning lack of cryptographic protection. These findings point to broader security vulnerabilities, emphasizing the risks of security-by-obscurity practices in an interconnected environment. Our contributions are twofold: firstly, based, on the file system structure, we develop a methodology for the extraction and analysis of MiniFS, facilitating the identification and mitigation of potential vulnerabilities. Secondly, our work lays the groundwork for further research into WiFi APs' security, particularly those running on similar proprietary systems. By highlighting the critical need for transparency and community engagement in firmware analysis, this study contributes to the development of more secure network devices, thus enhancing the overall security posture of digital infrastructures. | 翻訳日:2024-07-09 21:18:15 公開日:2024-07-06 |
# Smooth Sensitivity再考 : 最適性を目指して
Smooth Sensitivity Revisited: Towards Optimality ( http://arxiv.org/abs/2407.05067v1 ) ライセンス: Link先を確認 | Richard Hladík, Jakub Tětek, | (参考訳) スムース感度は、実用的な微分プライベートメカニズムを設計するための最も一般的な手法の1つである。
このアプローチでは、与えられた入力に対して与えられたクエリのスムーズな感度を$D$で計算し、このスムーズな感度に比例したノイズを加えた$q(D)$をリリースする。
ひとつ疑問が残る: ノイズをどの分布から選ぶべきか?
本稿では,スムーズな感度を持つ分布のクラスを新たに提供し,その分布をPolyPlace分布と呼ぶ。
この分布は、スムーズな感度フレームワークで設定しなければならない「滑らかなパラメータ」(smoothness parameter)$\gamma$)に依存するため、任意の大きな因子によって標準偏差の点で、最先端の学生のT分布を改善する。
さらに、我々の分布はより広い範囲のパラメータ$\gamma$で定義されています。
さらに、PolyPlace 分布が $\gamma \rightarrow 0$ に対してラプラス分布に収束し、その分散も証明する。
これは、LaplaceメカニズムがPolyPlaceメカニズムの限定的なケースであることを意味する。
これは、アウト機構が$\gamma \to 0$に対して最適であることを意味する。
Smooth sensitivity is one of the most commonly used techniques for designing practical differentially private mechanisms. In this approach, one computes the smooth sensitivity of a given query $q$ on the given input $D$ and releases $q(D)$ with noise added proportional to this smooth sensitivity. One question remains: what distribution should we pick the noise from? In this paper, we give a new class of distributions suitable for the use with smooth sensitivity, which we name the PolyPlace distribution. This distribution improves upon the state-of-the-art Student's T distribution in terms of standard deviation by arbitrarily large factors, depending on a "smoothness parameter" $\gamma$, which one has to set in the smooth sensitivity framework. Moreover, our distribution is defined for a wider range of parameter $\gamma$, which can lead to significantly better performance. Moreover, we prove that the PolyPlace distribution converges for $\gamma \rightarrow 0$ to the Laplace distribution and so does its variance. This means that the Laplace mechanism is a limit special case of the PolyPlace mechanism. This implies that out mechanism is in a certain sense optimal for $\gamma \to 0$. | 翻訳日:2024-07-09 21:18:15 公開日:2024-07-06 |
# einselection (複数形 einselections)
Decoherence without einselection ( http://arxiv.org/abs/2407.05074v1 ) ライセンス: Link先を確認 | Xiao Zhang, | (参考訳) デコヒーレンス(Decoherence)は、一般に、環境によって引き起こされる選択(einselection)として知られる、システムの固有状態間のコヒーレンスを破壊する環境との相互作用として説明される。
本研究は, 装置の非平衡力学を無視して, 電子選択とそれに伴う分散が実際に人工物であることを実証する。
我々は、量子重力代数の最近の発展に触発された確率行列積分(SMI)と呼ばれる、演算子ドレッシングの新しい定式化を提案する。
このアプローチは自然にPW(Page-Wootters)式から生じ、相互作用する非平衡過程としてデコヒーレンスを記述する。
これはヒルベルト空間の減少と、ボルンの法則と同様に本質的な非単位過程の出現につながる。
これらの結果は、固有選択とポインタ基底の仮定に頼らずに達成される。
Decoherence is typically explained as an interaction with the environment that destroys coherence between the system's eigenstates, a phenomenon known as environment-induced superselection (einselection). In this work, we demonstrate that einselection and the associated envariance are actually artifacts resulting from neglecting the non-equilibrium dynamics of the apparatus. We propose a new formalism of operator dressing, which we call the stochastic matrix integral (SMI), inspired by recent developments in quantum gravity algebras. This approach naturally arises from a modified Page-Wootters (PW) formula and describes decoherence as an interacting non-equilibrium process. It leads to the reduction of the Hilbert space and the emergence of an intrinsic non-unitary process as well as Born's rule. These outcomes are achieved without relying on the assumptions of einselection and pointer basis. | 翻訳日:2024-07-09 21:18:15 公開日:2024-07-06 |
# Form Forge: 明示的な潜在変数操作によるアーキテクチャ形式の潜在空間探索
Form Forge: Latent Space Exploration of Architectural Forms via Explicit Latent Variable Manipulation ( http://arxiv.org/abs/2407.05079v1 ) ライセンス: Link先を確認 | Kevin Dunnell, Andy Lippman, | (参考訳) 本稿では,Franois Blanciak氏の「SITELESS: 1001 Building Forms via direct manipulate of latent variables」に触発されて,アーキテクチャ形式の潜在空間を対話的に探索する,創造的なシステムのプロトタイプであるForm Forgeを提案する。
このシステムは、微調整されたStyleGAN2-ADAモデルを利用して、Blanciakのスケッチから派生したビルディングフォームの配列をナビゲートすることができる。
しばしば投影されたナビゲーションランドマークに依存する一般的な潜時空間探索ツールとは違い、Form Forgeは各潜時変数を操作するための直接アクセスを提供する。
Form Forgeの設計は、複雑な高次元空間との相互作用を単純化し、そのようなツールがアーキテクチャ設計における創造的プロセスをどのようにサポートするかについての予備的な調査となることを意図している。
This paper presents 'Form Forge,' a prototype of a creative system for interactively exploring the latent space of architectural forms, inspired by Franois Blanciak's SITELESS: 1001 Building Forms via direct manipulation of latent variables. Utilizing a fine-tuned StyleGAN2-ADA model, the system allows users to navigate an array of possible building forms derived from Blanciak's sketches. Distinct from common latent space exploration tools that often rely on projected navigation landmarks, Form Forge provides direct access to manipulate each latent variable, aiming to offer a more granular exploration of the model's capabilities. Form Forge's design is intended to simplify the interaction with a complex, high-dimensional space and to serve as a preliminary investigation into how such tools might support creative processes in architectural design. | 翻訳日:2024-07-09 21:08:14 公開日:2024-07-06 |
# 単一イオンプローブを用いた空間依存型回転ドップラーシフトの観測
Observation of Space-Dependent Rotational Doppler Shifts with a Single Ion Probe ( http://arxiv.org/abs/2407.05080v1 ) ライセンス: Link先を確認 | Nicolás Adrián Nuñez Barreto, Muriel Bonetto, Marcelo Alejandro Luda, Cecilia Cormick, Christian Tomás Schmiegelow, | (参考訳) 本研究では,2つの共伝播渦レーザービームによって励起される単一トラップイオンを用いた回転ドップラー効果の実験を行った。
この設定は、フィールドの方位勾配を分離し、縦方向および曲率効果を除去する。
本報告では, イオンの角速度と2つのビーム間の光学軌道角運動量の差に依存する信号を得るとともに, ビームを横切る単一イオンを決定的に位置決めすることで, 現象の詳細な特徴付けを行う。
測定の解釈は数値シミュレーションと簡易解析モデルによって支持される。
その結果, 回転ドップラー効果の鍵となる性質が明らかとなり, ビームの中心への接近が増加し, ビームの腰から独立していることが示唆された。
これは、ビームの伝播方向を横切る原子の動きを検知し操作するためのスーパーキックやスーパードップラーシフトの実現可能性に関する洞察を与える。
We present an experiment investigating the rotational Doppler effect using a single trapped ion excited by two copropagating vortex laser beams. The setup isolates the azimuthal gradients of the fields, eliminating longitudinal and curvature effects. We provide a detailed characterization of the phenomenon by deterministically positioning a single ion across the beams, achieving a signal which depends on the angular velocity of the ion and the difference of optical orbital angular momentum between the two beams. The interpretation of the measurements is supported by numerical simulations and by a simplified analytical model. Our results reveal key properties of the rotational Doppler effect, showing that it increases approaching the center of the beam and that it is independent of the waist of the beam. This offers insights into the feasibility of super-kicks or super-Doppler shifts for sensing and manipulating atomic motion transverse to the beams' propagation direction. | 翻訳日:2024-07-09 21:08:14 公開日:2024-07-06 |
# DMTG:One-Shot Differentiable Multi-Task Grouping
DMTG: One-Shot Differentiable Multi-Task Grouping ( http://arxiv.org/abs/2407.05082v1 ) ライセンス: Link先を確認 | Yuan Gao, Shuguo Jiang, Moran Li, Jin-Gang Yu, Gui-Song Xia, | (参考訳) 我々は,Multi-Task Grouping (MTG) を用いて,多数のタスクでMulti-Task Learning (MTL) に取り組むことを目指している。
N 個のタスクが与えられた場合、2^N 個の候補から最高のタスク群を同時に識別し、高次タスク親和性をフル活用したモデル重みを1ショットで同時に訓練することを提案する。
これは、群を逐次同定し、モデルの重みを訓練する先駆的な方法とは異なっている。
その結果,本手法はトレーニング効率を向上するだけでなく,逐次的手順によって引き起こされる客観バイアスを軽減し,潜在的に準最適解につながる可能性が示唆された。
具体的には、下位のカテゴリー分布によって決定される適応型ネットワークアーキテクチャ上で、MTGを完全微分可能なプルーニング問題として定式化する。
NタスクをKグループ(Kエンコーダブランチで表される)に分類するために、まずKNタスクヘッドを設定し、各ブランチがすべてのNタスクヘッドに接続して高次タスク親和性を利用するようにした。
そして、緩やかな微分可微分圏の分布を学習し、KN の頭部を徐々に N へと下降させ、各タスクが排他的かつ一意的に1つの枝にしか分類されないことを保証する。
CelebA と Taskonomy のデータセットを詳細に検証した結果,提案手法の有望な性能と効率性が確認された。
コードはhttps://github.com/ethanygao/DMTGで公開されている。
We aim to address Multi-Task Learning (MTL) with a large number of tasks by Multi-Task Grouping (MTG). Given N tasks, we propose to simultaneously identify the best task groups from 2^N candidates and train the model weights simultaneously in one-shot, with the high-order task-affinity fully exploited. This is distinct from the pioneering methods which sequentially identify the groups and train the model weights, where the group identification often relies on heuristics. As a result, our method not only improves the training efficiency, but also mitigates the objective bias introduced by the sequential procedures that potentially lead to a suboptimal solution. Specifically, we formulate MTG as a fully differentiable pruning problem on an adaptive network architecture determined by an underlying Categorical distribution. To categorize N tasks into K groups (represented by K encoder branches), we initially set up KN task heads, where each branch connects to all N task heads to exploit the high-order task-affinity. Then, we gradually prune the KN heads down to N by learning a relaxed differentiable Categorical distribution, ensuring that each task is exclusively and uniquely categorized into only one branch. Extensive experiments on CelebA and Taskonomy datasets with detailed ablations show the promising performance and efficiency of our method. The codes are available at https://github.com/ethanygao/DMTG. | 翻訳日:2024-07-09 21:08:14 公開日:2024-07-06 |
# 重畳雑音除去のための線形アテンションに基づく深部非局所平均フィルタ
Linear Attention Based Deep Nonlocal Means Filtering for Multiplicative Noise Removal ( http://arxiv.org/abs/2407.05087v1 ) ライセンス: Link先を確認 | Xiao Siyao, Huang Libing, Zhang Shunsheng, | (参考訳) 乗法ノイズはレーダー画像、医療画像、その他の重要な分野の画像に広く存在している。
通常の雑音と比較して、乗法ノイズは画像の視覚的表現に概して強い影響を与える。
乗法雑音の重畳問題に着目し,非局所的手段アルゴリズムをディープラーニングで線形化し,線形注意機構に基づく深部非局所的手段フィルタリング(LDNLM)を提案する。
従来の非局所的手段フィルタリングから、我々はディープチャネル畳み込みニューラルネットワークを用いて近隣行列の情報を取り出し、各画素の表現ベクトルを得る。
次に、類似性計算と重み付け平均化処理をアテンション機構の内部操作に置き換える。
計算オーバーヘッドを低減するために、類似性計算と重み付け平均化の式を用いて、線形複雑性を持つ非局所フィルタを導出する。
実乗法と模擬乗法の両方の実験により、LDNLMは最先端の手法よりも競争力が高いことが示された。
さらに,LDNLMは従来のNLMに近い解釈性を有することを示す。
Multiplicative noise widely exists in radar images, medical images and other important fields' images. Compared to normal noises, multiplicative noise has a generally stronger effect on the visual expression of images. Aiming at the denoising problem of multiplicative noise, we linearize the nonlocal means algorithm with deep learning and propose a linear attention mechanism based deep nonlocal means filtering (LDNLM). Starting from the traditional nonlocal means filtering, we employ deep channel convolution neural networks to extract the information of the neighborhood matrix and obtain representation vectors of every pixel. Then we replace the similarity calculation and weighted averaging processes with the inner operations of the attention mechanism. To reduce the computational overhead, through the formula of similarity calculation and weighted averaging, we derive a nonlocal filter with linear complexity. Experiments on both simulated and real multiplicative noise demonstrate that the LDNLM is more competitive compared with the state-of-the-art methods. Additionally, we prove that the LDNLM possesses interpretability close to traditional NLM. | 翻訳日:2024-07-09 21:08:14 公開日:2024-07-06 |
# 半監督型3次元医用画像分割のためのLCMからのタスク特化知識の活用
Leveraging Task-Specific Knowledge from LLM for Semi-Supervised 3D Medical Image Segmentation ( http://arxiv.org/abs/2407.05088v1 ) ライセンス: Link先を確認 | Suruchi Kumari, Aryan Das, Swalpa Kumar Roy, Indu Joshi, Pravendra Singh, | (参考訳) 従来の3D医療画像セグメンテーションモデルは、大量の人的労力、時間、コストを必要とする、ボクセルレベルのアノテーションを必要とする。
半教師付き学習(SSL)は、限定的な注釈付きおよび大量の未注釈のトレーニングサンプルで学習を容易にすることにより、教師付き学習のこの制限に対処する。
しかし、最先端のSSLモデルは、未発表のサンプルから学習する可能性を完全に活用するのに依然として苦労している。
LLM-SegNetは大規模言語モデル(LLM)を利用してタスク固有の知識を協調学習フレームワークに統合する。
この知識は、関心領域(ROI)の特徴を包括的に理解するモデルに役立つ。
さらに、誤セグメント化をさらに低減するために、統一セグメント化損失関数を提案する。
この損失関数は、モデルが前景または背景画素間の予測に自信を持つ領域を優先順位付けするだけでなく、モデルが予測に高い信頼を欠いている領域を効果的に解決する。
一般公開されているLeft Atrium、Pancreas-CT、Brats-19データセットの実験は、最先端技術と比較してLLM-SegNetの優れたパフォーマンスを示している。
さらに, LLM-SegNet を利用した各種モジュールの有効性と損失関数について, いくつかのアブレーション実験を行った。
Traditional supervised 3D medical image segmentation models need voxel-level annotations, which require huge human effort, time, and cost. Semi-supervised learning (SSL) addresses this limitation of supervised learning by facilitating learning with a limited annotated and larger amount of unannotated training samples. However, state-of-the-art SSL models still struggle to fully exploit the potential of learning from unannotated samples. To facilitate effective learning from unannotated data, we introduce LLM-SegNet, which exploits a large language model (LLM) to integrate task-specific knowledge into our co-training framework. This knowledge aids the model in comprehensively understanding the features of the region of interest (ROI), ultimately leading to more efficient segmentation. Additionally, to further reduce erroneous segmentation, we propose a Unified Segmentation loss function. This loss function reduces erroneous segmentation by not only prioritizing regions where the model is confident in predicting between foreground or background pixels but also effectively addressing areas where the model lacks high confidence in predictions. Experiments on publicly available Left Atrium, Pancreas-CT, and Brats-19 datasets demonstrate the superior performance of LLM-SegNet compared to the state-of-the-art. Furthermore, we conducted several ablation studies to demonstrate the effectiveness of various modules and loss functions leveraged by LLM-SegNet. | 翻訳日:2024-07-09 21:08:14 公開日:2024-07-06 |
# Androidアプリのパフォーマンス問題を自動的に分析する: どこまであるのか?
Automatically Analyzing Performance Issues in Android Apps: How Far Are We? ( http://arxiv.org/abs/2407.05090v1 ) ライセンス: Link先を確認 | Dianshu Liao, Shidong Pan, Siyuan Yang, Yitong Wang, Yanjie Zhao, Zhenchang Xing, Xiaoyu Sun, | (参考訳) パフォーマンスは、モバイルアプリケーションのスムーズな運用を保証する上で重要な役割を担い、ユーザのエンゲージメントと保持に直接影響を与えます。
Androidアプリケーションは例外ではない。
しかしながら、機能の問題とは異なり、根本原因が洗練され、通常は特定のペイロードの下に現れるため、パフォーマンスの問題を見つけることはより困難である。
この問題に対処するため、研究者はパフォーマンス問題を理解し、検出し、解決するための自動アプローチの提案に多大な努力を払ってきた。
これらの努力にもかかわらず、Androidのパフォーマンス分析の現在の状況や、既存のアプローチが実際のパフォーマンス問題を正確に反映できるかどうかはまだ分かっていない。
本研究のギャップを埋めるために,本研究では,関連研究と実世界の課題を探るため,系統的な文献レビューを行い,解説研究を行った。
私たちの調査によると、現在のツールは機能に制限があり、パフォーマンス上の問題のうち17.50%しかカバーしていない。
さらに、既存のデータセットは問題の27.50%しか含んでおらず、非常に制限されている。
また、実世界の課題パターンを示し、特定された技術と実践上の懸念の間の大きなギャップを浮き彫りにしている。
さらに,性能問題の検出と解決を効果的に行うための今後の研究の指針として,可能なソリューションが提供される。
Performance plays a critical role in ensuring the smooth operation of any mobile application, directly influencing user engagement and retention. Android applications are no exception. However, unlike functionality issues, performance issues are more challenging to discover as their root causes are sophisticated and typically emerge under specific payloads. To tackle this problem, researchers have dedicated substantial efforts to proposing automatic approaches for understanding, detecting, and resolving performance issues. Despite these endeavors, it still remains unknown what the status quo of Android performance analysis is, and whether existing approaches can indeed accurately reflect real performance issues. To fill this research gap, we conducted a systematic literature review followed by an explanatory study to explore relevant studies and real-world challenges. Our findings reveal that current tools have limited capabilities, covering only 17.50% of the performance issues. Additionally, existing datasets encompass only 27.50% of the issues and are very limited in size. We also show real-world issue patterns, underscoring the huge gap between the identified techniques and practical concerns. Furthermore, possible solutions are provided to guide future research towards achieving effective performance issue detection and resolution. | 翻訳日:2024-07-09 21:08:14 公開日:2024-07-06 |
# 時間とともに変化する音の探索:計算と人間の知覚のレビュー
Exploring Sound Change Over Time: A Review of Computational and Human Perception ( http://arxiv.org/abs/2407.05092v1 ) ライセンス: Link先を確認 | Siqi He, Wei Zhao, | (参考訳) コンピュータと人間の知覚は、時間とともに音の変化を研究するための別々のアプローチとみなされることが多い。
この研究ギャップを埋めるために、我々は、計算と人間の知覚を対比する先駆的なレビューを、方法やタスクの観点から提供する。
全体として、コンピュータによるアプローチは、音韻論的データセットにおける歴史的音の変化を知覚するのに対して、人間のアプローチはリスナーによるモデルを使用して、記録コーパスにおける継続的な音の変化を知覚する。
両者の相違にもかかわらず、両者のアプローチは音素レベルと音響レベルを補完し、より包括的な音変化知覚を実現する可能性を示している。
さらに, 両手法が用いたデータセットの比較研究を行い, 歴史的音響変化が継続する変化に与える影響について検討する。
最後に、計算言語学における音響変化の適用について論じ、言語変化の多くのプロセスが複雑であり、構文、意味、音韻レベルでの絡み合った変化が伴うので、音の変化のみを認識することは不十分である、と指摘する。
Computational and human perception are often considered separate approaches for studying sound changes over time; few works have touched on the intersection of both. To fill this research gap, we provide a pioneering review contrasting computational with human perception from the perspectives of methods and tasks. Overall, computational approaches rely on computer-driven models to perceive historical sound changes on etymological datasets, while human approaches use listener-driven models to perceive ongoing sound changes on recording corpora. Despite their differences, both approaches complement each other on phonetic and acoustic levels, showing the potential to achieve a more comprehensive perception of sound change. Moreover, we call for a comparative study on the datasets used by both approaches to investigate the influence of historical sound changes on ongoing changes. Lastly, we discuss the applications of sound change in computational linguistics, and point out that perceiving sound change alone is insufficient, as many processes of language change are complex, with entangled changes at syntactic, semantic, and phonetic levels. | 翻訳日:2024-07-09 21:08:14 公開日:2024-07-06 |
# FedTSA:モデル不均一なフェデレーション学習のためのクラスタベースの2段階集約手法
FedTSA: A Cluster-based Two-Stage Aggregation Method for Model-heterogeneous Federated Learning ( http://arxiv.org/abs/2407.05098v1 ) ライセンス: Link先を確認 | Boyu Fan, Chenrui Wu, Xiang Su, Pan Hui, | (参考訳) フェデレートラーニング(FL)におけるデータ不均一性の研究にもかかわらず、システム不均一性はしばしば見過ごされがちな課題である。
従来のFLアプローチでは、FLクライアント全体で均質なハードウェアリソースを前提としており、クライアントが同等の時間でグローバルモデルをトレーニングできることを暗示している。
しかし、実際のFLシステムでは、クライアントはしばしば異種資源を持ち、訓練タスクの能力に影響を与えます。
この違いは、クライアントがリソース能力に基づいて異なるモデルをトレーニングできるパラダイムであるモデル不均一FLを探索することの重要性を強調している。
そこで本研究では,FLにおけるシステム不均一性に適したクラスタベースの2段階アグリゲーション手法であるFedTSAを紹介する。
FedTSAは、その能力に基づいてクライアントをクラスタリングし、次に2段階のアグリゲーションを行う。すなわち、同種モデルの平均平均化をステージ1として、異種モデルをステージ2として集約するための拡散モデルとの深い相互学習を行う。
大規模な実験により、FedTSAがベースラインを上回るだけでなく、モデル性能に影響を与える様々な要因を探索し、モデル不均一FLに対する有望なアプローチとしてFedTSAを検証した。
Despite extensive research into data heterogeneity in federated learning (FL), system heterogeneity remains a significant yet often overlooked challenge. Traditional FL approaches typically assume homogeneous hardware resources across FL clients, implying that clients can train a global model within a comparable time. However, in practical FL systems, clients often have heterogeneous resources, which impacts their capacity for training tasks. This discrepancy highlights the significance of exploring model-heterogeneous FL, a paradigm that allows clients to train different models based on their resource capabilities. To address this, we introduce FedTSA, a cluster-based two-stage aggregation method tailored for system heterogeneity in FL. FedTSA starts by clustering clients based on their capabilities, then conducts a two-stage aggregation, i.e., conventional weight averaging for homogeneous models as Stage 1, and deep mutual learning with a diffusion model for aggregating heterogeneous models as Stage 2. Extensive experiments not only show that FedTSA outperforms the baselines, but also explore various factors influencing model performance, thereby validating FedTSA as a promising approach for model-heterogeneous FL. | 翻訳日:2024-07-09 21:08:14 公開日:2024-07-06 |
# 二重ヒントによる質問:回答の認識と地域参照による視覚的質問生成
Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference ( http://arxiv.org/abs/2407.05100v1 ) ライセンス: Link先を確認 | Kai Shen, Lingfei Wu, Siliang Tang, Fangli Xu, Bo Long, Yueting Zhuang, Jian Pei, | (参考訳) 視覚的質問生成(VQG)タスクは、画像と潜在的に他の側面情報(例えば、回答タイプ)から人間のような質問を生成することを目的としている。
VQGに関する以前の研究は、以下の2つの側面に該当する。
一 一つの画像から多くの質問マッピング問題に苦しむことであって、画像から参照的、有意義な質問を生成するのに失敗すること。
二 画像内の視覚オブジェクト間の複雑な暗黙の関係をモデル化することができず、側面情報と画像間の潜在的な相互作用を見落としていること。
これらの制約に対処するために,我々はまず,応答認識と領域参照による視覚的質問を生成する新しい学習パラダイムを提案する。
具体的には,既存の一対多マッピング問題を効果的に軽減できるような,テキストによる回答や関心領域の視覚的領域といった,二重ヒントで適切な視覚的質問を行うことを目指している。
特に,人間のアノテーションを付加せずに視覚的ヒントを自己学習する簡単な手法を開発した。
さらに、これらの高度な関係を捉えるために、まずそれらを動的グラフとしてモデル化し、暗黙のトポロジーをエンドツーエンドに学習し、次にグラフからシーケンスモデルを用いて二重ヒントで質問を生成する、新しいダブルヒンツガイド付きグラフからシーケンス学習フレームワークを提案する。
実験の結果,提案手法の優先度が示された。
The visual question generation (VQG) task aims to generate human-like questions from an image and potentially other side information (e.g. answer type). Previous works on VQG fall in two aspects: i) They suffer from one image to many questions mapping problem, which leads to the failure of generating referential and meaningful questions from an image. ii) They fail to model complex implicit relations among the visual objects in an image and also overlook potential interactions between the side information and image. To address these limitations, we first propose a novel learning paradigm to generate visual questions with answer-awareness and region-reference. Concretely, we aim to ask the right visual questions with Double Hints - textual answers and visual regions of interests, which could effectively mitigate the existing one-to-many mapping issue. Particularly, we develop a simple methodology to self-learn the visual hints without introducing any additional human annotations. Furthermore, to capture these sophisticated relationships, we propose a new double-hints guided Graph-to-Sequence learning framework, which first models them as a dynamic graph and learns the implicit topology end-to-end, and then utilizes a graph-to-sequence model to generate the questions with double hints. Experimental results demonstrate the priority of our proposed method. | 翻訳日:2024-07-09 21:08:14 公開日:2024-07-06 |
# 埋込みFPGAソフトセンサの自動構築に向けて
Towards Auto-Building of Embedded FPGA-based Soft Sensors for Wastewater Flow Estimation ( http://arxiv.org/abs/2407.05102v1 ) ライセンス: Link先を確認 | Tianheng Ling, Chao Qian, Gregor Schiele, | (参考訳) リソース制限型IoTデバイス上でのDeep Learning (DL)ベースのソフトセンサによるフロー推定は,信頼性とエネルギー効率の面で有望であることを示す。
しかし,(1)利用可能なデータセットの欠如,(2)デバイス上でのAIモデルの開発と展開のための不便なツールチェーン,(3)エネルギー効率のよいソフトセンサアプリケーションに最適化されるのではなく,一般のDLのために設計されたハードウェアプラットフォームなどにより,排水流量推定の分野への応用はいまだ検討されていない。
本研究は, プロトタイプIoTデバイスを用いた排水流量推定のための自動エンドツーエンドソリューションを提案することにより, これらのギャップに対処する。
Executing flow estimation using Deep Learning (DL)-based soft sensors on resource-limited IoT devices has demonstrated promise in terms of reliability and energy efficiency. However, its application in the field of wastewater flow estimation remains underexplored due to: (1) a lack of available datasets, (2) inconvenient toolchains for on-device AI model development and deployment, and (3) hardware platforms designed for general DL purposes rather than being optimized for energy-efficient soft sensor applications. This study addresses these gaps by proposing an automated, end-to-end solution for wastewater flow estimation using a prototype IoT device. | 翻訳日:2024-07-09 21:08:14 公開日:2024-07-06 |
# クラウドソーシングによるレビューで、公共の駐車場に対する認識の相違が明らかに
Crowdsourced reviews reveal substantial disparities in public perceptions of parking ( http://arxiv.org/abs/2407.05104v1 ) ライセンス: Link先を確認 | Lingyao Li, Songhua Hu, Ly Dinh, Libby Hemphill, | (参考訳) 民間車両への依存が増し、旅行需要が増加したため、駐車場は世界中で長年続く都市難題である。
駐車場の認識の定量化は、意思決定者が問題領域を特定し、駐車管理について情報的な決定をすることができるため、最重要である。
本研究は、費用対効果が高く、広くアクセス可能なデータソースであるクラウドソースオンラインレビューを導入し、米国中の駐車場に対する一般の認識を調査し、Google Mapsから発信された911のコアベース統計領域(CBSA)にわたる1,129,460ポイント(POI)の駐車関連レビュー4,987,483件を調査した。
両方向エンコーダ表現モデルを用いて、駐車感情を分類し、回帰分析を行い、社会空間要因との関連性を探る。
POI型とCBSA型にまたがるパーキング感の顕著な変化がみられ,レストランPOIは最もネガティブな傾向を示した。
回帰の結果はさらに、アフリカ系アメリカ人やヒスパニック系住民の比率が高く、社会経済的地位の低い都市部は、駐車場に対するネガティブな感情を示す傾向にあることを示している。
興味深いことに、駐車場の供給と感情の逆の関係が観察され、供給の増加が駐車体験を必ずしも改善しないことを示している。
最後に, テキスト分析により, 肯定的感情や否定的感情に関連するキーワードを特定し, 都市部と農村部の格差を強調する。
本研究は、駐車感情を測定するための新しいデータソースと方法論の枠組みの可能性を示し、超局所的な駐車問題を特定するのに役立つ貴重な洞察を提供し、ターゲットとなる駐車管理戦略をガイドする。
Due to increased reliance on private vehicles and growing travel demand, parking remains a longstanding urban challenge globally. Quantifying parking perceptions is paramount as it enables decision-makers to identify problematic areas and make informed decisions on parking management. This study introduces a cost-effective and widely accessible data source, crowdsourced online reviews, to investigate public perceptions of parking across the U.S. Specifically, we examine 4,987,483 parking-related reviews for 1,129,460 points of interest (POIs) across 911 core-based statistical areas (CBSAs) sourced from Google Maps. We employ the Bidirectional Encoder Representations from Transformers (BERT) model to classify the parking sentiment and conduct regression analyses to explore its relationships with socio-spatial factors. Findings reveal significant variations in parking sentiment across POI types and CBSAs, with Restaurant POIs showing the most negative. Regression results further indicate that denser urban areas with higher proportions of African Americans and Hispanics and lower socioeconomic status are more likely to exhibit negative parking sentiment. Interestingly, an opposite relationship between parking supply and sentiment is observed, indicating increasing supply does not necessarily improve parking experiences. Finally, our textual analysis identifies keywords associated with positive or negative sentiments and highlights disparities between urban and rural areas. Overall, this study demonstrates the potential of a novel data source and methodological framework in measuring parking sentiment, offering valuable insights that help identify hyperlocal parking issues and guide targeted parking management strategies. | 翻訳日:2024-07-09 21:08:14 公開日:2024-07-06 |
# DailyDVS-200: イベントベースのアクション認識のための総合ベンチマークデータセット
DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition ( http://arxiv.org/abs/2407.05106v1 ) ライセンス: Link先を確認 | Qi Wang, Zhou Xu, Yuming Lin, Jingtao Ye, Hongsheng Li, Guangming Zhu, Syed Afaq Ali Shah, Mohammed Bennamoun, Liang Zhang, | (参考訳) ニューロモルフィックセンサー、特にイベントカメラは、異常なダイナミックレンジ、最小レイテンシ、エネルギー効率でピクセル強度の変化を捉え、従来のフレームベースのカメラと区別することで、視覚データ取得に革命をもたらす。
イベントカメラの特徴的な能力は、イベントベースのアクション認識の領域に大きな関心を抱き、その進歩の可能性を認識している。
しかし、この分野での開発は、堅牢な認識フレームワークを開発する上で重要な、包括的な大規模データセットの欠如によって、現在遅くなっている。
このギャップを埋めるために、イベントベースのアクション認識コミュニティ用に微妙にキュレートされたベンチマークデータセットであるDailyDVS-200を紹介した。
DailyDVS-200は、実世界のシナリオにまたがる200のアクションカテゴリをカバーし、47人の参加者によって記録され、22,000以上のイベントシーケンスで構成されている。
このデータセットは、幅広いアクションタイプ、シーンの複雑さ、データ取得の多様性を反映するように設計されている。
データセットの各シーケンスには14の属性がアノテートされ、記録されたアクションの詳細なキャラクタリゼーションが保証される。
さらに、DailyDVS-200は幅広い研究パスを促進するために構成されており、既存のアプローチを検証し、新しい方法論を創出するための確かな基盤を提供する。
この分野に新しいベンチマークを設定することで、ニューロモルフィックデータ処理の現在の限界に挑戦し、イベントベースのアクション認識技術における新しいアプローチの急増を招き、ニューロモルフィックコンピューティングなどにおける将来の探索の道を開く。
データセットとソースコードはhttps://github.com/QiWang233/DailyDVS-200で公開されている。
Neuromorphic sensors, specifically event cameras, revolutionize visual data acquisition by capturing pixel intensity changes with exceptional dynamic range, minimal latency, and energy efficiency, setting them apart from conventional frame-based cameras. The distinctive capabilities of event cameras have ignited significant interest in the domain of event-based action recognition, recognizing their vast potential for advancement. However, the development in this field is currently slowed by the lack of comprehensive, large-scale datasets, which are critical for developing robust recognition frameworks. To bridge this gap, we introduces DailyDVS-200, a meticulously curated benchmark dataset tailored for the event-based action recognition community. DailyDVS-200 is extensive, covering 200 action categories across real-world scenarios, recorded by 47 participants, and comprises more than 22,000 event sequences. This dataset is designed to reflect a broad spectrum of action types, scene complexities, and data acquisition diversity. Each sequence in the dataset is annotated with 14 attributes, ensuring a detailed characterization of the recorded actions. Moreover, DailyDVS-200 is structured to facilitate a wide range of research paths, offering a solid foundation for both validating existing approaches and inspiring novel methodologies. By setting a new benchmark in the field, we challenge the current limitations of neuromorphic data processing and invite a surge of new approaches in event-based action recognition techniques, which paves the way for future explorations in neuromorphic computing and beyond. The dataset and source code are available at https://github.com/QiWang233/DailyDVS-200. | 翻訳日:2024-07-09 21:08:14 公開日:2024-07-06 |
# 深い森林の表現性における深さ・幅・木の大きさの役割
The Role of Depth, Width, and Tree Size in Expressiveness of Deep Forest ( http://arxiv.org/abs/2407.05108v1 ) ライセンス: Link先を確認 | Shen-Huan Lyu, Jin-Hui Wu, Qin-Cheng Zheng, Baoliu Ye, | (参考訳) ランダムフォレスト(Random forests)は、複数のランダム化された決定木を構築し、その予測を単純平均化を用いて集約する古典的なアンサンブルアルゴリズムである。
さらに,多層林を用いた深い森林アルゴリズムを提案し,様々なタスクにおいてランダム林よりも優れていた。
深い森林のパフォーマンスは、実際には3つのハイパーパラメータ(深さ、幅、木の大きさ)に関連しているが、その理論的な説明はほとんど分かっていない。
この研究は、3つのハイパーパラメーターに関する深い森林の近似複雑性について、最初の上下境界を与える。
その結果,深部林の表現力は,幅や木の大きさと比較して指数関数的に向上することが明らかとなった。
実験は理論的な結果を確認します。
Random forests are classical ensemble algorithms that construct multiple randomized decision trees and aggregate their predictions using naive averaging. \citet{zhou2019deep} further propose a deep forest algorithm with multi-layer forests, which outperforms random forests in various tasks. The performance of deep forests is related to three hyperparameters in practice: depth, width, and tree size, but little has been known about its theoretical explanation. This work provides the first upper and lower bounds on the approximation complexity of deep forests concerning the three hyperparameters. Our results confirm the distinctive role of depth, which can exponentially enhance the expressiveness of deep forests compared with width and tree size. Experiments confirm the theoretical findings. | 翻訳日:2024-07-09 21:08:14 公開日:2024-07-06 |
# ベネヴァレンスから不正を緩和する - 機械学習におけるベネヴァレンスデータの脅威
Releasing Malevolence from Benevolence: The Menace of Benign Data on Machine Unlearning ( http://arxiv.org/abs/2407.05112v1 ) ライセンス: Link先を確認 | Binhao Ma, Tianhang Zheng, Hongsheng Hu, Di Wang, Shuo Wang, Zhongjie Ba, Zhan Qin, Kui Ren, | (参考訳) 大量の実データや合成データに基づいてトレーニングされた機械学習モデルは、様々な領域で優れた予測性能を達成する。
しかし、このユーティリティにはプライバシーに関する懸念が高まり、トレーニングデータには機密情報が含まれる可能性がある。
これらの問題に対処するため、モデルから特定のデータサンプルを消去するマシンアンラーニングが提案されている。
いくつかのアンラーニング技術は、低コストで効率的にデータを除去するが、最近の研究は、悪意のあるユーザーが操作されたデータからアンラーニングを要求できる脆弱性を強調している。
これらの攻撃の有効性にもかかわらず、摂動データは元のトレーニングデータと異なり、ハッシュ検証に失敗する。
マシン・アンラーニングに対する既存の攻撃は、実践的な制限に悩まされ、かなりの知識とリソースを必要とする。
現在の未学習攻撃のギャップを埋めるために、未学習ユーザビリティアタックを紹介します。
このモデルに依存しない、学習に依存しない、予算に優しい攻撃は、データの配布情報を少数の良質なデータに蒸留する。
これらのデータは、モデルトレーニングに対する肯定的な影響から、自動毒素検出ツールによって良性であると同定される。
機械学習には適しているが、これらのデータをアンラーニングすることは、モデルの情報を著しく劣化させる。
評価の結果, 学習対象データ全体の1%以下で, モデル精度を最大50%低減できることがわかった。
さらに,これらの合成インスタンスの消去は,通常のデータよりも高いリソースを必要とするため,良質な良質なデータが近年の未学習技術に課題を生じさせることが示唆された。
これらの知見は、機械学習の文脈で「データ中毒」を再考する将来の研究の必要性を浮き彫りにしている。
Machine learning models trained on vast amounts of real or synthetic data often achieve outstanding predictive performance across various domains. However, this utility comes with increasing concerns about privacy, as the training data may include sensitive information. To address these concerns, machine unlearning has been proposed to erase specific data samples from models. While some unlearning techniques efficiently remove data at low costs, recent research highlights vulnerabilities where malicious users could request unlearning on manipulated data to compromise the model. Despite these attacks' effectiveness, perturbed data differs from original training data, failing hash verification. Existing attacks on machine unlearning also suffer from practical limitations and require substantial additional knowledge and resources. To fill the gaps in current unlearning attacks, we introduce the Unlearning Usability Attack. This model-agnostic, unlearning-agnostic, and budget-friendly attack distills data distribution information into a small set of benign data. These data are identified as benign by automatic poisoning detection tools due to their positive impact on model training. While benign for machine learning, unlearning these data significantly degrades model information. Our evaluation demonstrates that unlearning this benign data, comprising no more than 1% of the total training data, can reduce model accuracy by up to 50%. Furthermore, our findings show that well-prepared benign data poses challenges for recent unlearning techniques, as erasing these synthetic instances demands higher resources than regular data. These insights underscore the need for future research to reconsider "data poisoning" in the context of machine unlearning. | 翻訳日:2024-07-09 21:08:14 公開日:2024-07-06 |
# パーサー毎のパフォーマンスの自動予測
Automatic Prediction of the Performance of Every Parser ( http://arxiv.org/abs/2407.05116v1 ) ライセンス: Link先を確認 | Ergun Biçici, | (参考訳) 本稿では,機械翻訳性能予測システム(MTPPS)を用いた新しいパーサ性能予測モデルを提案する。
この新しいシステムであるMPPPS-PPPは、任意の言語におけるパーサの性能を予測することができ、与えられたテキストを理解する際の文法的難易度を推定し、出力のパーサからの期待の設定、特定のドメインに対するパーサの選択、パーサの組み合わせシステムに役立てることができる。
テキスト機能よりも優れた結果を得られる$F_1$と、パーサや言語ラベルの具体的情報を用いた以前の結果と類似した性能で、PSPのSoA結果を得る。
本研究の結果は,異なる学習課題(ドメイン内対ドメイン外),異なる学習セット,異なる学習アルゴリズム,異なる次元化手法による個々の特徴のランキングと,異なる実験環境における個々の特徴の寄与を示す。
我々は、設定+Linkで0.0678$ MAEと0.85$ RAEを達成する。これは、WSJ23テストセットのCharniakとJohnsonパーサーのブラケットのスコアを予測する際に、約7.4\%のエラーに対応する。
MTPPS-PPPシステムは、テキストのみを使用して解析することなく予測でき、教師なしパーサーのみを使用しず、パーサーや言語依存情報を一切使用せず、参照パーサー出力を使わずに予測でき、任意の言語におけるパーサーの性能を予測するのに使うことができる。
We present a new parser performance prediction (PPP) model using machine translation performance prediction system (MTPPS), statistically independent of any language or parser, relying only on extrinsic and novel features based on textual, link structural, and bracketing tree structural information. This new system, MTPPS-PPP, can predict the performance of any parser in any language and can be useful for estimating the grammatical difficulty when understanding a given text, for setting expectations from parsing output, for parser selection for a specific domain, and for parser combination systems. We obtain SoA results in PPP of bracketing $F_1$ with better results over textual features and similar performance with previous results that use parser and linguistic label specific information. Our results show the contribution of different types of features as well as rankings of individual features in different experimental settings (cased vs. uncased), in different learning tasks (in-domain vs. out-of-domain), with different training sets, with different learning algorithms, and with different dimensionality reduction techniques. We achieve $0.0678$ MAE and $0.85$ RAE in setting +Link, which corresponds to about $7.4\%$ error when predicting the bracketing $F_1$ score for the Charniak and Johnson parser on the WSJ23 test set. MTPPS-PPP system can predict without parsing using only the text, without a supervised parser using only an unsupervised parser, without any parser or language dependent information, without using a reference parser output, and can be used to predict the performance of any parser in any language. | 翻訳日:2024-07-09 21:08:14 公開日:2024-07-06 |
# しね(しね):構成的時間的接地のための主観的階層的負格付け
SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding ( http://arxiv.org/abs/2407.05118v1 ) ライセンス: Link先を確認 | Zixu Cheng, Yujiang Pu, Shaogang Gong, Parisa Kordjamshidi, Yu Kong, | (参考訳) 時間的グラウンドディング、つまりビデオモーメント検索は、所定のクエリ文に対応するビデオセグメントの特定を目的としている。
自然言語の構成的性質は、事前定義された事象を超越した局所化を可能にし、既存の方法の構成的一般化可能性に一定の課題を提起する。
近年の研究では、合成一般化を実現するために、分解・再構成方式でビデオとクエリの対応性を確立する。
しかし、彼らは支配的なプリミティブを考慮し、ランダムサンプリングと再結合を通じて負のクエリを構築するだけで、結果として意味的に不可解な負がモデルが合理的な構成を学習することを妨げる。
さらに、最近のDETRに基づく手法は、構成的時間的グラウンドリングにおいてまだ不十分であり、正のクエリと微妙に異なる負のクエリを与えられたとき、不合理なサリエンシ応答を示す。
これらの制約に対処するために、まず、GPT-3.5-Turboを用いて、意味論的に妥当なハード負のクエリを生成する、大きな言語モデルによる負のクエリ構築手法を提案する。
続いて,ビデオと階層的負のクエリ間のマルチグラニュラリティ意味関係を学習し,合成の一般化を促進させる,粗大なサラレンシランキング戦略を導入する。
提案手法の有効性と一般化性を検証した。
私たちのコードはhttps://github.com/zxccade/SHINE.comから入手可能です。
Temporal grounding, a.k.a video moment retrieval, aims at locating video segments corresponding to a given query sentence. The compositional nature of natural language enables the localization beyond predefined events, posing a certain challenge to the compositional generalizability of existing methods. Recent studies establish the correspondence between videos and queries through a decompose-reconstruct manner to achieve compositional generalization. However, they only consider dominant primitives and build negative queries through random sampling and recombination, resulting in semantically implausible negatives that hinder the models from learning rational compositions. In addition, recent DETR-based methods still underperform in compositional temporal grounding, showing irrational saliency responses when given negative queries that have subtle differences from positive queries. To address these limitations, we first propose a large language model-driven method for negative query construction, utilizing GPT-3.5-Turbo to generate semantically plausible hard negative queries. Subsequently, we introduce a coarse-to-fine saliency ranking strategy, which encourages the model to learn the multi-granularity semantic relationships between videos and hierarchical negative queries to boost compositional generalization. Extensive experiments on two challenging benchmarks validate the effectiveness and generalizability of our proposed method. Our code is available at https://github.com/zxccade/SHINE. | 翻訳日:2024-07-09 20:58:28 公開日:2024-07-06 |
# インストラクショナルビデオにおけるオープンイベントプロシージャ計画
Open-Event Procedure Planning in Instructional Videos ( http://arxiv.org/abs/2407.05119v1 ) ライセンス: Link先を確認 | Yilu Wu, Hanlin Wang, Jing Wang, Limin Wang, | (参考訳) 現在の視覚的観察から、指導ビデオにおける伝統的な手順計画タスクは、与えられたアクション空間内でゴール指向の計画を生成するモデルを必要とする。
このタスクの以前のメソッドはすべて、同じアクション空間の下でトレーニングと推論を行い、トレーニングセットで事前に定義されたイベントを計画するしかありません。
この設定は実生活における人間の援助には当てはまらないものであり、より汎用的で実践的な計画パラダイムを提案することを目的としている。
具体的には,オープン・イベント・プロシージャ・プランニング(OEPP)と呼ばれる新しいタスクを導入し,従来のプロシージャ・プランニングをオープン・イベント・セッティングに拡張する。
OEPPは、プランナーが学習した知識をトレーニング中に見たことのない同様のイベントに転送できるかどうかを検証することを目的としている。
私たちは、既存のデータセットに基づいて、このタスクのためにOpenEventの新しいベンチマークを再構築し、関連するイベントをベースと新しい部分に分割します。
データ収集の過程では、複数の段階の異なるイベントステップの記述の類似性を評価することにより、ベースイベントと新規イベントの手続き的知識の伝達能力を慎重に確保する。
収集したデータに基づいて,OEPPに特化して設計されたシンプルで汎用的なフレームワークを提案し,様々なベースライン手法を用いて広範囲にわたる研究を行い,その課題の成果を詳細に,洞察に富んだ分析を行う。
Given the current visual observations, the traditional procedure planning task in instructional videos requires a model to generate goal-directed plans within a given action space. All previous methods for this task conduct training and inference under the same action space, and they can only plan for pre-defined events in the training set. We argue this setting is not applicable for human assistance in real lives and aim to propose a more general and practical planning paradigm. Specifically, in this paper, we introduce a new task named Open-event Procedure Planning (OEPP), which extends the traditional procedure planning to the open-event setting. OEPP aims to verify whether a planner can transfer the learned knowledge to similar events that have not been seen during training. We rebuild a new benchmark of OpenEvent for this task based on existing datasets and divide the events involved into base and novel parts. During the data collection process, we carefully ensure the transfer ability of procedural knowledge for base and novel events by evaluating the similarity between the descriptions of different event steps with multiple stages. Based on the collected data, we further propose a simple and general framework specifically designed for OEPP, and conduct extensive study with various baseline methods, providing a detailed and insightful analysis on the results for this task. | 翻訳日:2024-07-09 20:58:28 公開日:2024-07-06 |
# 効率的な非同期フェデレーション学習のための局所的更新とグラディエント圧縮の併用手法
A Joint Approach to Local Updating and Gradient Compression for Efficient Asynchronous Federated Learning ( http://arxiv.org/abs/2407.05125v1 ) ライセンス: Link先を確認 | Jiajun Song, Jiajun Luo, Rongwei Lu, Shuzhao Xie, Bin Chen, Zhi Wang, | (参考訳) 非同期フェデレートラーニング(AFL)は、デバイス(例えば、その計算能力)と低帯域環境の不均一性に起因する固有の課題に直面し、どちらもグローバルアグリゲーションのための古いモデル更新(例えば、局所勾配)を引き起こす可能性がある。
アップデートの安定性を緩和する従来のアプローチは、通常はローカル更新または勾配圧縮の調整に重点を置いているが、両方ではない。
このギャップを認識し、局所的な更新と勾配圧縮を相乗化する新しいアプローチを導入する。
本研究は,局所更新周波数と勾配圧縮速度の相互作用と収束速度に対する集団的影響について検討することから始まる。
理論上界は、各装置の局所的な更新周波数と勾配圧縮速度が、その演算力、通信能力、その他の要因によって共同で決定されることを示している。
この基盤の上に構築されたFedLuckと呼ばれるAFLフレームワークは、局所的な更新頻度と勾配圧縮率の両方を適応的に最適化する。
画像分類と音声認識の実験により、FedLuckは通信消費を平均56%減らし、トレーニング時間は平均55%減らし、ベースラインと比較して不均一で低帯域幅のシナリオで競合性能を達成することが示された。
Asynchronous Federated Learning (AFL) confronts inherent challenges arising from the heterogeneity of devices (e.g., their computation capacities) and low-bandwidth environments, both potentially causing stale model updates (e.g., local gradients) for global aggregation. Traditional approaches mitigating the staleness of updates typically focus on either adjusting the local updating or gradient compression, but not both. Recognizing this gap, we introduce a novel approach that synergizes local updating with gradient compression. Our research begins by examining the interplay between local updating frequency and gradient compression rate, and their collective impact on convergence speed. The theoretical upper bound shows that the local updating frequency and gradient compression rate of each device are jointly determined by its computing power, communication capabilities and other factors. Building on this foundation, we propose an AFL framework called FedLuck that adaptively optimizes both local update frequency and gradient compression rates. Experiments on image classification and speech recognization show that FedLuck reduces communication consumption by 56% and training time by 55% on average, achieving competitive performance in heterogeneous and low-bandwidth scenarios compared to the baselines. | 翻訳日:2024-07-09 20:58:28 公開日:2024-07-06 |
# SCSA:空間的意識とチャネル意識の相乗効果を探る
SCSA: Exploring the Synergistic Effects Between Spatial and Channel Attention ( http://arxiv.org/abs/2407.05128v1 ) ライセンス: Link先を確認 | Yunzhong Si, Huiying Xu, Xinzhong Zhu, Wenhao Zhang, Yao Dong, Yuxing Chen, Hongbo Li, | (参考訳) チャネルと空間の注意は、様々な下流視覚タスクにおける特徴依存と空間構造の関係を抽出する上で大きな改善をもたらした。
彼らの組み合わせは個々の強みを利用するのに有用であるが、チャネルと空間の注意の相乗効果は十分に検討されておらず、特徴指導と意味格差の緩和のために多意味情報の相乗的ポテンシャルを十分に活用できなかった。
本研究では,複数の意味レベルでの空間的注意とチャネル的注意の相乗的関係を明らかにすることを目的として,新しい空間的・チャネル的意識モジュール(SCSA)を提案する。
SCSAは,共有型マルチセマンティック空間注意 (SMSA) とプログレッシブチャネルワイド自己注意 (PCSA) の2つの部分から構成される。
SMSAは、マルチセマンティック情報を統合し、プログレッシブ圧縮戦略を利用して、PCSAのチャネル自己アテンションに差別的空間事前を注入し、効果的にチャネルリカバリを導出する。
さらに,PCSAにおける自己認識機構に基づくロバストな特徴相互作用により,SMSA内の複数のサブ機能間のマルチセマンティック情報の相違が軽減される。
我々は、ImageNet-1Kの分類、MSCOCO 2017のオブジェクト検出、ADE20Kのセグメンテーション、その他4つの複雑なシーン検出データセットを含む7つのベンチマークデータセットについて広範な実験を行った。
以上の結果から,提案したSCSAは現状の注目に勝るだけでなく,様々なタスクシナリオにまたがる一般化能力の向上も示している。
コードとモデルは、https://github.com/HZAI-ZJNU/SCSA.comで入手できる。
Channel and spatial attentions have respectively brought significant improvements in extracting feature dependencies and spatial structure relations for various downstream vision tasks. While their combination is more beneficial for leveraging their individual strengths, the synergy between channel and spatial attentions has not been fully explored, lacking in fully harness the synergistic potential of multi-semantic information for feature guidance and mitigation of semantic disparities. Our study attempts to reveal the synergistic relationship between spatial and channel attention at multiple semantic levels, proposing a novel Spatial and Channel Synergistic Attention module (SCSA). Our SCSA consists of two parts: the Shareable Multi-Semantic Spatial Attention (SMSA) and the Progressive Channel-wise Self-Attention (PCSA). SMSA integrates multi-semantic information and utilizes a progressive compression strategy to inject discriminative spatial priors into PCSA's channel self-attention, effectively guiding channel recalibration. Additionally, the robust feature interactions based on the self-attention mechanism in PCSA further mitigate the disparities in multi-semantic information among different sub-features within SMSA. We conduct extensive experiments on seven benchmark datasets, including classification on ImageNet-1K, object detection on MSCOCO 2017, segmentation on ADE20K, and four other complex scene detection datasets. Our results demonstrate that our proposed SCSA not only surpasses the current state-of-the-art attention but also exhibits enhanced generalization capabilities across various task scenarios. The code and models are available at: https://github.com/HZAI-ZJNU/SCSA. | 翻訳日:2024-07-09 20:58:28 公開日:2024-07-06 |
# RULE:医療ビジョン言語モデルにおけるファクチュアリティのための信頼性の高いマルチモーダルRAG
RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models ( http://arxiv.org/abs/2407.05131v1 ) ライセンス: Link先を確認 | Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao, | (参考訳) 近年,医療用大規模視覚言語モデル (Med-LVLMs) が出現し,医学的診断が強化されている。
しかし、現在のMed-LVLMは、しばしば現実的な問題に遭遇し、確立された医療事実と一致しない応答をしばしば生み出す。
外部知識を利用した検索・拡張生成(RAG)は,これらのモデルの現実的精度を向上させるが,2つの大きな課題を提起する。
まず、限定された検索されたコンテキストは必要な情報をすべてカバーしないが、過剰な検索は無関係で不正確な参照を導入し、モデルの生成に干渉する。
第二に、モデルが元来正しく応答する場合、RAGを適用すると、取得したコンテキストに対する過度な信頼が得られ、誤った回答をもたらす可能性がある。
これらの問題に対処するために,2つのコンポーネントからなるRULEを提案する。
まず,検索したコンテキストの数を校正し,事実性リスクを制御するための有効な戦略を提案する。
第二に、検索したコンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、選好データセットをキュレートしてモデルを微調整し、固有知識への依存と生成のための検索コンテキストのバランスをとる。
3つの医療用VQAデータセットに対するRULEの有効性を実証し、実際の精度で平均20.8%の改善を実現した。
ベンチマークとコードはhttps://github.com/richard-peng-xia/RULEで公開しています。
The recent emergence of Medical Large Vision Language Models (Med-LVLMs) has enhanced medical diagnosis. However, current Med-LVLMs frequently encounter factual issues, often generating responses that do not align with established medical facts. Retrieval-Augmented Generation (RAG), which utilizes external knowledge, can improve the factual accuracy of these models but introduces two major challenges. First, limited retrieved contexts might not cover all necessary information, while excessive retrieval can introduce irrelevant and inaccurate references, interfering with the model's generation. Second, in cases where the model originally responds correctly, applying RAG can lead to an over-reliance on retrieved contexts, resulting in incorrect answers. To address these issues, we propose RULE, which consists of two components. First, we introduce a provably effective strategy for controlling factuality risk through the calibrated selection of the number of retrieved contexts. Second, based on samples where over-reliance on retrieved contexts led to errors, we curate a preference dataset to fine-tune the model, balancing its dependence on inherent knowledge and retrieved contexts for generation. We demonstrate the effectiveness of RULE on three medical VQA datasets, achieving an average improvement of 20.8% in factual accuracy. We publicly release our benchmark and code in https://github.com/richard-peng-xia/RULE. | 翻訳日:2024-07-09 20:58:28 公開日:2024-07-06 |
# Xとそれ以上の問題を解決する: 大規模言語モデルは、よりタンツーな未知の複雑な数学問題を解くことができるか?
Solving for X and Beyond: Can Large Language Models Solve Complex Math Problems with More-Than-Two Unknowns? ( http://arxiv.org/abs/2407.05134v1 ) ライセンス: Link先を確認 | Kuei-Chun Kao, Ruochen Wang, Cho-Jui Hsieh, | (参考訳) 大規模言語モデル(LLM)は、人間の知能の指標である数学の問題を解く際、顕著な性能を示した。
しかし、現在のベンチマークでは高い成功率にもかかわらず、1つまたは2つの未知数しか持たない単純な問題を特徴としているため、推論能力に十分な挑戦はできない。
本稿では,複数の未知の問題を組み込むことで,これらの制約に対処する新しいベンチマークであるBeyondXを紹介する。
複数の未知の問題をスクラッチから提案する際の課題を認識し、より単純な問題において未知の数を増やすことで、複雑さを徐々に増大させる革新的な自動パイプラインを使用してBeyondXを開発した。
BeyondXに関する実証的な研究によると、数学タスクに特化して微調整された既存のLLMのパフォーマンスは、未知数の増加に伴って大幅に低下し、GPT-4では最大70 %のパフォーマンス低下が観測された。
これらの課題に対処するために、任意の数の未知の問題を効果的に処理する一般化されたプロンプト手法であるフォーミュラト・アンド・ソルブ戦略を提案する。
その結果,この戦略はBeyondXベンチマークにおけるLLM性能を高めるだけでなく,より複雑な数学的課題に直面した場合のLLMの計算限界に関する深い洞察も得られることがわかった。
Large Language Models (LLMs) have demonstrated remarkable performance in solving math problems, a hallmark of human intelligence. Despite high success rates on current benchmarks; however, these often feature simple problems with only one or two unknowns, which do not sufficiently challenge their reasoning capacities. This paper introduces a novel benchmark, BeyondX, designed to address these limitations by incorporating problems with multiple unknowns. Recognizing the challenges in proposing multi-unknown problems from scratch, we developed BeyondX using an innovative automated pipeline that progressively increases complexity by expanding the number of unknowns in simpler problems. Empirical study on BeyondX reveals that the performance of existing LLMs, even those fine-tuned specifically on math tasks, significantly decreases as the number of unknowns increases - with a performance drop of up to 70\% observed in GPT-4. To tackle these challenges, we propose the Formulate-and-Solve strategy, a generalized prompting approach that effectively handles problems with an arbitrary number of unknowns. Our findings reveal that this strategy not only enhances LLM performance on the BeyondX benchmark but also provides deeper insights into the computational limits of LLMs when faced with more complex mathematical challenges. | 翻訳日:2024-07-09 20:58:28 公開日:2024-07-06 |
# Ripplet下での渦 : RAG対応の実証研究
Vortex under Ripplet: An Empirical Study of RAG-enabled Applications ( http://arxiv.org/abs/2407.05138v1 ) ライセンス: Link先を確認 | Yuchen Shao, Yuheng Huang, Jiawei Shen, Lei Ma, Ting Su, Chengcheng Wan, | (参考訳) 検索拡張生成(RAG)によって強化された大規模言語モデル(LLM)は、様々なアプリケーションシナリオにおいて効果的なソリューションを提供する。
しかしながら開発者は、インターフェース仕様の欠如、ソフトウェアコンテキストからの要求、複雑なシステム管理のために、RAGに強化されたLLMをソフトウェアシステムに統合する際の課題に直面している。
本稿では,RAG強化LLMを組み込んだ100のオープンソースアプリケーションとその問題報告について手動で検討した。
アプリケーションの98%以上には、ソフトウェア機能、効率、セキュリティを害する複数の統合欠陥が含まれていることが分かりました。
また、19の欠陥パターンを一般化し、それに取り組むためのガイドラインを提案しました。
この取り組みがLLM対応のソフトウェア開発を支援し、将来の研究の動機になることを期待しています。
Large language models (LLMs) enhanced by retrieval-augmented generation (RAG) provide effective solutions in various application scenarios. However, developers face challenges in integrating RAG-enhanced LLMs into software systems, due to lack of interface specification, requirements from software context, and complicated system management. In this paper, we manually studied 100 open-source applications that incorporate RAG-enhanced LLMs, and their issue reports. We have found that more than 98% of applications contain multiple integration defects that harm software functionality, efficiency, and security. We have also generalized 19 defect patterns and proposed guidelines to tackle them. We hope this work could aid LLM-enabled software development and motivate future research. | 翻訳日:2024-07-09 20:58:28 公開日:2024-07-06 |
# 分散化フェデレーション学習におけるネットワークトポロジーがビザンチンレジリエンスに及ぼす影響
Impact of Network Topology on Byzantine Resilience in Decentralized Federated Learning ( http://arxiv.org/abs/2407.05141v1 ) ライセンス: Link先を確認 | Siddhartha Bhattacharya, Daniel Helo, Joshua Siegel, | (参考訳) フェデレートラーニング(FL)は、ユーザ間でトレーニングデータを共有することなく、機械学習モデルをトレーニングするための協調環境を実現する。
これは典型的には、中央サーバのモデル勾配を集約することで達成される。
分散フェデレーション学習は、集中集約サーバを必要とせず、ピアツーピアで機械学習モデルを協調的にトレーニングすることのできる、上昇するパラダイムである。
しかし、実世界の訓練環境に分散FLを適用する前に、集約関数を選択する際には、FLプロセス(ビザンチンノード)から逸脱するノードを考慮しなければならない。
近年,クライアントサーバや完全接続ネットワークに対するビザンチン-ロバストアグリゲーションに注目されているが,分散FLで実現可能な複雑なトポロジに対するアグリゲーションスキームは未だ評価されていない。
したがって、異なるネットワークトポロジーにおけるビザンチンの堅牢性の実証的な証拠の必要性は明らかである。
本研究では、複雑な大規模ネットワーク構造における最先端のビザンチン-ロバスト凝集法の効果について検討する。
最先端のビザンツのロバスト・アグリゲーション戦略は、大規模な非完全連結ネットワークではレジリエントではないことが判明した。
そこで本研究は,特に大規模実世界展開の文脈において,トポロジを意識したアグリゲーション・スキームの開発に向けての分野を指摘する。
Federated learning (FL) enables a collaborative environment for training machine learning models without sharing training data between users. This is typically achieved by aggregating model gradients on a central server. Decentralized federated learning is a rising paradigm that enables users to collaboratively train machine learning models in a peer-to-peer manner, without the need for a central aggregation server. However, before applying decentralized FL in real-world use training environments, nodes that deviate from the FL process (Byzantine nodes) must be considered when selecting an aggregation function. Recent research has focused on Byzantine-robust aggregation for client-server or fully connected networks, but has not yet evaluated such aggregation schemes for complex topologies possible with decentralized FL. Thus, the need for empirical evidence of Byzantine robustness in differing network topologies is evident. This work investigates the effects of state-of-the-art Byzantine-robust aggregation methods in complex, large-scale network structures. We find that state-of-the-art Byzantine robust aggregation strategies are not resilient within large non-fully connected networks. As such, our findings point the field towards the development of topology-aware aggregation schemes, especially necessary within the context of large scale real-world deployment. | 翻訳日:2024-07-09 20:58:28 公開日:2024-07-06 |
# 近接類型化器の高次元的修正について
On high-dimensional modifications of the nearest neighbor classifier ( http://arxiv.org/abs/2407.05145v1 ) ライセンス: Link先を確認 | Annesha Ghosh, Bilol Banerjee, Anil K. Ghosh, | (参考訳) 最も近い隣の分類器は間違いなく最も単純で一般的な非パラメトリック分類器である。
しかし、対距離の集中と近傍構造の違反により、この分類器は高次元、低サンプルサイズ(HDLSS)の状況に悩まされることが多い。
この問題に対処するため、文献でいくつかの試みがなされている。
本稿では,これらの既存手法について考察し,新しい手法を提案する。
この点について理論的研究を行い、いくつかのシミュレーションおよびベンチマークデータセットを分析し、提案手法の実証的な性能と既存手法との比較を行う。
Nearest neighbor classifier is arguably the most simple and popular nonparametric classifier available in the literature. However, due to the concentration of pairwise distances and the violation of the neighborhood structure, this classifier often suffers in high-dimension, low-sample size (HDLSS) situations, especially when the scale difference between the competing classes dominates their location difference. Several attempts have been made in the literature to take care of this problem. In this article, we discuss some of these existing methods and propose some new ones. We carry out some theoretical investigations in this regard and analyze several simulated and benchmark datasets to compare the empirical performances of proposed methods with some of the existing ones. | 翻訳日:2024-07-09 20:58:28 公開日:2024-07-06 |
# ミリケルビンの熱検出器を用いたマイクロ波光子相関測定
Measurement of microwave photon correlations at millikelvin with a thermal detector ( http://arxiv.org/abs/2407.05147v1 ) ライセンス: Link先を確認 | Aarne Keränen, Qi-Ming Chen, András Gunyhó, Priyank Singh, Jian Ma, Visa Vesterinen, Joonas Govenius, Mikko Möttönen, | (参考訳) マイクロ波光子は、量子コンピューティングのための多くの有望なプラットフォームにおいて、量子情報の重要なキャリアである。
それらは日常的に生成され、制御され、実験で伝送され、量子技術における様々な応用を示す。
マイクロ波光子のエネルギーは室温検出器の熱ゆらぎよりもかなり小さく、増幅は必然的にノイズを誘発する。
本稿では,ミリケルビンの光子統計を直接測定し,このトレードオフを克服するナノボロメーターを用いた計測手法を提案する。
本研究では, サーキット量子力学系で動作するブラックボディラジエータによって生成される熱状態に本手法を適用した。
ナノボロメーターの光子数分解性を示し、ボース-アインシュタイン分布で示される光子数分散のn(n+1)-スケーリング則を明らかにする。
入力場のコヒーレント比と非コヒーレント比をエンジニアリングすることにより,マイクロ波光子の超ポアソニアン統計とポアソニアン統計との遷移をボルメトリー2階相関測定から観察する。
この技術は、マイクロ波光子による量子力学の基礎的なテストに役立ち、量子情報プロセッサのスケーラブルな読み出しソリューションとして機能する。
Microwave photons are important carriers of quantum information in many promising platforms for quantum computing. They can be routinely generated, controlled, and teleported in experiments, indicating a variety of applications in quantum technology. However, observation of quantum statistical properties of microwave photons remains demanding: The energy of several microwave photons is considerably smaller than the thermal fluctuation of any room-temperature detector, while amplification necessarily induces noise. Here, we present a measurement technique with a nanobolometer that directly measures the photon statistics at millikelvin and overcomes this trade-off. We apply our method to thermal states generated by a blackbody radiator operating in the regime of circuit quantum electrodynamics. We demonstrate the photon number resolvedness of the nanobolometer, and reveal the n(n+1)-scaling law of the photon number variance as indicated by the Bose--Einstein distribution. By engineering the coherent and incoherent proportions of the input field, we observe the transition between super-Poissonian and Poissonian statistics of the microwave photons from the bolometric second-order correlation measurement. This technique is poised to serve in fundamental tests of quantum mechanics with microwave photons and function as a scalable readout solution for a quantum information processor. | 翻訳日:2024-07-09 20:58:28 公開日:2024-07-06 |
# Lucy: テキストからSQLへの解決を考えた理由
Lucy: Think and Reason to Solve Text-to-SQL ( http://arxiv.org/abs/2407.05153v1 ) ライセンス: Link先を確認 | Nina Narodytska, Shay Vargaftik, | (参考訳) 大規模言語モデル(LLM)は、自然言語でデータベースをクエリするユーザを支援するために大きな進歩を遂げた。
LLMベースの技術は多くの標準ベンチマークで最先端の結果を提供するが、大規模エンタープライズデータベースに適用された場合、その性能は著しく低下する。
なぜなら、これらのデータベースには複雑な関係を持つ多数のテーブルがあり、LCMが推論を困難にしているからです。
これらの設定でLLMが直面する課題を分析し、複雑なデータベース制約に対処する自動推論技術と質問理解におけるLLMの力を組み合わせた新しいソリューションを提案する。
これらのアイデアに基づいて、複雑なベンチマークにおいてゼロショットテキスト-SQLにおける最先端技術より優れた新しいフレームワークを開発した。
Large Language Models (LLMs) have made significant progress in assisting users to query databases in natural language. While LLM-based techniques provide state-of-the-art results on many standard benchmarks, their performance significantly drops when applied to large enterprise databases. The reason is that these databases have a large number of tables with complex relationships that are challenging for LLMs to reason about. We analyze challenges that LLMs face in these settings and propose a new solution that combines the power of LLMs in understanding questions with automated reasoning techniques to handle complex database constraints. Based on these ideas, we have developed a new framework that outperforms state-of-the-art techniques in zero-shot text-to-SQL on complex benchmarks | 翻訳日:2024-07-09 20:58:28 公開日:2024-07-06 |
# 関係翻訳機を用いたツイートの構造と内容の強度と属性の識別力の同定
Identifying Intensity of the Structure and Content in Tweets and the Discriminative Power of Attributes in Context with Referential Translation Machines ( http://arxiv.org/abs/2407.05154v1 ) ライセンス: Link先を確認 | Ergun Biçici, | (参考訳) 本稿では,属性と2つの単語の英単語間の類似度を,単語と属性語間のタスクを機械翻訳性能予測(MTPP)としてキャストし,その類似度とRTMモデルによるタスク10の類似度との距離を推定するためにRTM(Reference Translation Machine)を用いる。
MTPPは、つぶやきとWordNetから選択された感情のための単語のセットが感情リストに影響を及ぼすタスク1において、英語、アラビア語、スペイン語のつぶやきの構造と内容の強さを予測するためにも使われる。
重ねられたRTMモデルはどちらも奨励的な結果を得る。
We use referential translation machines (RTMs) to identify the similarity between an attribute and two words in English by casting the task as machine translation performance prediction (MTPP) between the words and the attribute word and the distance between their similarities for Task 10 with stacked RTM models. RTMs are also used to predict the intensity of the structure and content in tweets in English, Arabic, and Spanish in Task 1 where MTPP is between the tweets and the set of words for the emotion selected from WordNet affect emotion lists. Stacked RTM models obtain encouraging results in both. | 翻訳日:2024-07-09 20:58:28 公開日:2024-07-06 |
# マルチコントロールゲートの低深さ量子回路分解
Low-depth Quantum Circuit Decomposition of Multi-controlled Gates ( http://arxiv.org/abs/2407.05162v1 ) ライセンス: Link先を確認 | Thiago Melo D. Azevedo, Jefferson D. S. Silva, Adenilton J. da Silva, | (参考訳) マルチコントロールゲートは量子アルゴリズムの設計において基本的な要素であり、これらの演算子の効率的な分解によりアルゴリズム性能が向上する。
n-制御されたXゲートと1つのアンシラを1つの量子ビットに分解し、CNOTゲートは次数3の多対数深さの回路を生成する。
本稿では,分割・対数アルゴリズムにおける再帰呼び出しの回数を削減し,n-制御されたXゲート分解の深さを2.799の多対数深さに削減する。
この最適化された分解により、n 個の制御された SU(2) ゲートとn 個の制御された U(2) ゲートの深さも減少する。
この研究で記述された分解は、文献で報告された最も低い漸近深度を達成する。
また、再帰的アプローチの基盤として最適化を行う。
52個の制御量子ビットから始まり、1個のアンシラを持つn個の制御されたXゲートは、文献で最も短い回路深さを持つ。
公開リポジトリで提供される無償のオープンソースコードで、すべての結果を再現することができる。
Multi-controlled gates are fundamental components in the design of quantum algorithms, where efficient decompositions of these operators can enhance algorithm performance. The best asymptotic decomposition of an n-controlled X gate with one borrowed ancilla into single qubit and CNOT gates produces circuits with degree 3 polylogarithmic depth and employs a divide-and-conquer strategy. In this paper, we reduce the number of recursive calls in the divide-and-conquer algorithm and decrease the depth of n-controlled X gate decomposition to a degree of 2.799 polylogarithmic depth. With this optimized decomposition, we also reduce the depth of n-controlled SU(2) gates and approximate n-controlled U(2) gates. Decompositions described in this work achieve the lowest asymptotic depth reported in the literature. We also perform an optimization in the base of the recursive approach. Starting at 52 control qubits, the proposed n-controlled X gate with one borrowed ancilla has the shortest circuit depth in the literature. One can reproduce all the results with the freely available open-source code provided in a public repository. | 翻訳日:2024-07-09 20:58:28 公開日:2024-07-06 |
# 頸動脈超音波の領域適応モデル:画像高調波化,ノイズ低減,および循環器危険マーカーへの影響
A Domain Adaptation Model for Carotid Ultrasound: Image Harmonization, Noise Reduction, and Impact on Cardiovascular Risk Markers ( http://arxiv.org/abs/2407.05163v1 ) ライセンス: Link先を確認 | Mohd Usama, Emma Nyman, Ulf Naslund, Christer Gronlund, | (参考訳) 深層学習は、トレーニングとテストデータが同じ確率分布に従うことを前提として、医用画像解析の応用に広く用いられている。
しかし、異なるシステムで生成された医療画像や、異なるパラメータ設定で同じシステムでも、共通の課題が生じる。
このような画像には様々なテクスチャやノイズパターンが含まれており、仮定に違反していることが多い。
その結果、あるマシンからのデータでトレーニングされたモデルや設定は、通常、別のマシンからのデータで効果的に実行するのに苦労する。
超音波画像におけるこの問題に対処するため,我々はGANに基づくモデルを提案する。
画像間の変換タスクとして画像調和・復調タスクを定式化し,画像内容(解剖)を一定に保ちながら,頸動脈超音波像のテクスチャパターンを修正し,ノイズを低減した。
特徴分布と画素空間類似度測定値を用いて評価を行った。
また,血液と脂肪のコントラストと計算されたリスクマーカー(Gray scale median, GSM)への影響を評価した。
その結果, 画像の解剖学的特性は, 両課題(ヒストグラム相関0.920, 0.844) と非適応0.890, 0.707) で達成され, 血管壁0.71, 0.80の構造類似度指標) が維持された。
さらに、画像の雑音レベル(コントラスト)は、画像の調和タスク(-34.1 vs 35.2 dB)では変化せず、ノイズ低減タスク(23.5 vs -46.7 dB)では改善された。
このモデルは両方のタスクでCycleGANを上回った。
最後に、リスクマーカーGSMはタスク1では7.6(p<0.001)増加したが、タスク2では増加しなかった。
ドメイン翻訳モデルは、基礎となる解剖を保ちながら超音波画像改善のための強力なツールであるが、リスクマーカーの下流での計算に影響を及ぼす可能性があると結論付けている。
Deep learning has been used extensively for medical image analysis applications, assuming the training and test data adhere to the same probability distributions. However, a common challenge arises when dealing with medical images generated by different systems or even the same system with varying parameter settings. Such images often contain diverse textures and noise patterns, violating the assumption. Consequently, models trained on data from one machine or setting usually struggle to perform effectively on data from another. To address this issue in ultrasound images, we proposed a Generative Adversarial Network (GAN) based model in this paper. We formulated image harmonization and denoising tasks as an image-to-image translation task, wherein we modified the texture pattern and reduced noise in Carotid ultrasound images while keeping the image content (the anatomy) unchanged. The performance was evaluated using feature distribution and pixel-space similarity metrics. In addition, blood-to-tissue contrast and influence on computed risk markers (Gray scale median, GSM) were evaluated. The results showed that domain adaptation was achieved in both tasks (histogram correlation 0.920 and 0.844), as compared to no adaptation (0.890 and 0.707), and that the anatomy of the images was retained (structure similarity index measure of the arterial wall 0.71 and 0.80). In addition, the image noise level (contrast) did not change in the image harmonization task (-34.1 vs 35.2 dB) but was improved in the noise reduction task (-23.5 vs -46.7 dB). The model outperformed the CycleGAN in both tasks. Finally, the risk marker GSM increased by 7.6 (p<0.001) in task 1 but not in task 2. We conclude that domain translation models are powerful tools for ultrasound image improvement while retaining the underlying anatomy but that downstream calculations of risk markers may be affected. | 翻訳日:2024-07-09 20:58:28 公開日:2024-07-06 |
# フィードバック駆動の自動化されたバグがAndroidアプリの再現を報告
Feedback-Driven Automated Whole Bug Report Reproduction for Android Apps ( http://arxiv.org/abs/2407.05165v1 ) ライセンス: Link先を確認 | Dingbang Wang, Yu Zhao, Sidong Feng, Zhaoxu Zhang, William G. J. Halfond, Chunyang Chen, Xiaoxia Sun, Jiangfan Shi, Tingting Yu, | (参考訳) ソフトウェア開発では、バグレポートの再現は難しい作業です。
本稿では,大規模な言語モデルであるGPT-4を利用して,Androidのバグレポートを自動的に再現する新たなフィードバック駆動型アプローチであるReBLを紹介する。
従来のメソッドとは異なり、ReBLはStep to Reproduce(S2R)エンティティの使用をバイパスしている。
代わりに、テキストバグレポート全体を活用し、GPTの文脈推論を強化する革新的なプロンプトを採用している。
このアプローチは従来のステップバイステップのエンティティマッチングアプローチよりも柔軟でコンテキスト対応で、精度と効率性が向上します。
クラッシュレポートの処理に加えて、ReBLは非クラッシュバグレポートの処理機能を備えている。
96のAndroidバグレポート(73のクラッシュと23の非クラッシュ)の評価によると、ReBLは90.63%のバグレポートを再現し、平均74.98秒に過ぎなかった。
さらに、ReBLは成功率とスピードの両面で、既存の3つのツールを上回った。
In software development, bug report reproduction is a challenging task. This paper introduces ReBL, a novel feedback-driven approach that leverages GPT-4, a large-scale language model, to automatically reproduce Android bug reports. Unlike traditional methods, ReBL bypasses the use of Step to Reproduce (S2R) entities. Instead, it leverages the entire textual bug report and employs innovative prompts to enhance GPT's contextual reasoning. This approach is more flexible and context-aware than the traditional step-by-step entity matching approach, resulting in improved accuracy and effectiveness. In addition to handling crash reports, ReBL has the capability of handling non-crash bug reports. Our evaluation of 96 Android bug reports (73 crash and 23 non-crash) demonstrates that ReBL successfully reproduced 90.63% of these reports, averaging only 74.98 seconds per bug report. Additionally, ReBL outperformed three existing tools in both success rate and speed. | 翻訳日:2024-07-09 20:58:28 公開日:2024-07-06 |
# トランスモン変調Dickeモデルにおける時間結晶の終生の絡み合いマーカー
Entanglement marker for lifetime of time crystal in transmon-modulated open Dicke model ( http://arxiv.org/abs/2407.05171v1 ) ライセンス: Link先を確認 | Tanaya Ray, Shuva Mondal, Ujjwal Sen, | (参考訳) クビットアンサンブル中の離散時間結晶 (DTC) 相を光子またはトランスモン場との相互作用により周期的に駆動し, 消散性リークしがちである。
このDTCは、フィールドモードのデチューニングやアンハーモニック性の変化に対して頑健である。
さらに、平均場近似が有効である半古典的極限においてシステムについて検討し、この目的に適した半古典的ハミルトニアンの有用性を実証する。
興味深いことに,本システムは2量子ビットしか持たない過渡的なDTCを示す。
量子ビットと場の間のバイパルタイトの絡み合いのダイナミクスについて検討する。
急激なピークの後, エンタングルメントは動的に早期に安定な値に飽和することが明らかとなった。
この長期的絡み合い値と一過性DMCの寿命との間には強い正の相関関係がみられ、被写体が損失光子または損失トランスモンモードによって引き起こされるパラメータ状態の幅広い範囲において、微調整が小さい。
We investigate the discrete time crystal (DTC) phase in a qubit ensemble, periodically driven by its interaction with either a photon or a transmon field, which is prone to dissipative leakage. We find this DTC to be robust against changes in detuning and anharmonicity of the field mode. Additionally, we study the system in the semiclassical limit, where mean-field approximations are valid, and demonstrate the utility of a suitable semiclassical Hamiltonian for this purpose. Intriguingly, we observe that the system exhibits a transient DTC even with only two qubits. We examine the dynamics of bipartite entanglement between the qubits and the field. Our findings show that the entanglement saturates to a steady value early in the dynamics, following a sudden peak. We find a strong positive correlation between this long-term entanglement value and the lifetime of the transient DTC, in a wide range of the parameter regime where the field is due to a lossy photon or a lossy transmon mode, with small detuning. | 翻訳日:2024-07-09 20:46:54 公開日:2024-07-06 |
# 基礎モデルを用いたフェデレーション学習を支援する合成データ
Synthetic Data Aided Federated Learning Using Foundation Models ( http://arxiv.org/abs/2407.05174v1 ) ライセンス: Link先を確認 | Fatima Abacha, Sin G. Teo, Lucas C. Cordeiro, Mustafa A. Mustafa, | (参考訳) フェデレーテッド・ラーニング(FL)参加者間のデータ分布が非独立でIdentically Distributed(Non-IID)であるヘテロジニアスなシナリオでは、FLはデータヘテロジニティのよく知られた問題に悩まされる。
これにより、グローバルモデルが収束に苦しむ傾向にあるため、FLの性能は著しく低下する。
この問題を解決するために、クライアント側に存在するローカルデータの均質化を支援する新しいデータ拡張戦略であるDPSDA-FL(differially Private Synthetic Data Aided Federated Learning Using Foundation Models)を提案する。
DPSDA-FLは、基礎モデルから生成された微分プライベートな合成データを活用することにより、局所モデルのトレーニングを改善する。
ベンチマーク画像データセットであるCIFAR-10で評価し,提案手法の有効性を示す。
実験の結果,DPSDA-FLは,非IID問題のあるFLにおいて,クラスリコールとクラス分類精度を最大26%, 9%向上できることがわかった。
In heterogeneous scenarios where the data distribution amongst the Federated Learning (FL) participants is Non-Independent and Identically distributed (Non-IID), FL suffers from the well known problem of data heterogeneity. This leads the performance of FL to be significantly degraded, as the global model tends to struggle to converge. To solve this problem, we propose Differentially Private Synthetic Data Aided Federated Learning Using Foundation Models (DPSDA-FL), a novel data augmentation strategy that aids in homogenizing the local data present on the clients' side. DPSDA-FL improves the training of the local models by leveraging differentially private synthetic data generated from foundation models. We demonstrate the effectiveness of our approach by evaluating it on the benchmark image dataset: CIFAR-10. Our experimental results have shown that DPSDA-FL can improve class recall and classification accuracy of the global model by up to 26% and 9%, respectively, in FL with Non-IID issues. | 翻訳日:2024-07-09 20:46:54 公開日:2024-07-06 |
# 量子アルゴリズムの類型論
A typology of quantum algorithms ( http://arxiv.org/abs/2407.05178v1 ) ライセンス: Link先を確認 | Pablo Arnault, Pablo Arrighi, Steven Herbert, Evi Kasnetsi, Tianyi Li, | (参考訳) 量子アルゴリズムの現在の展望は、解いた基本的な数学的問題、実世界の応用、採用する主要なサブルーチン、その他いくつかの関連する基準に従って、約130の量子アルゴリズムを分類することによって描いている。
主な目的は、アルゴリズムのトレンドを明らかにすること、NISQ時代の実装に期待できるフィールドを特定すること、量子優位性を支える重要なアルゴリズムプリミティブを特定することである。
We draw the current landscape of quantum algorithms, by classifying about 130 quantum algorithms, according to the fundamental mathematical problems they solve, their real-world applications, the main subroutines they employ, and several other relevant criteria. The primary objectives include revealing trends of algorithms, identifying promising fields for implementations in the NISQ era, and identifying the key algorithmic primitives that power quantum advantage. | 翻訳日:2024-07-09 20:46:54 公開日:2024-07-06 |
# 強化学習エージェントにおける観測摂動攻撃の新しい分岐法:サイバー物理システムにおける負荷変動攻撃
A Novel Bifurcation Method for Observation Perturbation Attacks on Reinforcement Learning Agents: Load Altering Attacks on a Cyber Physical Power System ( http://arxiv.org/abs/2407.05182v1 ) ライセンス: Link先を確認 | Kiernan Broda-Milian, Ranwa Al-Mallah, Hanane Dagdougui, | (参考訳) 現実世界のプロセスに影響を与えるサイバー物理システムのコンポーネントは、しばしばインターネットに露出する。
エネルギーシステムの深部強化学習(DRL)による従来の制御手法の置き換えは、再生可能エネルギー源の出現と効率向上への欲求により、これらのシステムがますます複雑化するにつれて、研究の活発な領域である。
人工ニューラルネットワーク(ANN)は、敵対的な例と呼ばれる、入力や特徴の特定の摂動に対して脆弱である。
これらの摂動は、適切に正規化されたときに検出することは困難であるが、ANNの出力に重大な影響を及ぼす。
DRLは観測に最適な動作をマッピングするためにANNを使用しているため、同様に敵の例にも弱い。
本研究は,分岐層を用いたグループ差分ロジッツ損失を用いた連続制御のための新しい攻撃手法を提案する。
標的攻撃と未目標攻撃の側面を組み合わせることで、この攻撃は未目標攻撃と比較して影響を著しく増加させ、最適目標攻撃よりも大幅に歪みを小さくする。
我々は、現実的なスマートエネルギー環境における強力な勾配に基づく攻撃の影響を実証し、異なるDRLエージェントとトレーニング手順による影響がどのように変化するかを示し、統計的および時系列分析を用いて攻撃のステルスを評価する。
その結果、敵の攻撃はDRLコントローラに大きな影響を及ぼし、攻撃の摂動を制限することは、検出を困難にしていることがわかった。
しかしながら、一部のDRLアーキテクチャはより堅牢であり、堅牢なトレーニング手法は影響をさらに減らすことができる。
Components of cyber physical systems, which affect real-world processes, are often exposed to the internet. Replacing conventional control methods with Deep Reinforcement Learning (DRL) in energy systems is an active area of research, as these systems become increasingly complex with the advent of renewable energy sources and the desire to improve their efficiency. Artificial Neural Networks (ANN) are vulnerable to specific perturbations of their inputs or features, called adversarial examples. These perturbations are difficult to detect when properly regularized, but have significant effects on the ANN's output. Because DRL uses ANN to map optimal actions to observations, they are similarly vulnerable to adversarial examples. This work proposes a novel attack technique for continuous control using Group Difference Logits loss with a bifurcation layer. By combining aspects of targeted and untargeted attacks, the attack significantly increases the impact compared to an untargeted attack, with drastically smaller distortions than an optimally targeted attack. We demonstrate the impacts of powerful gradient-based attacks in a realistic smart energy environment, show how the impacts change with different DRL agents and training procedures, and use statistical and time-series analysis to evaluate attacks' stealth. The results show that adversarial attacks can have significant impacts on DRL controllers, and constraining an attack's perturbations makes it difficult to detect. However, certain DRL architectures are far more robust, and robust training methods can further reduce the impact. | 翻訳日:2024-07-09 20:46:54 公開日:2024-07-06 |
# FlowLearn:フローチャート理解のための大規模視覚言語モデルの評価
FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding ( http://arxiv.org/abs/2407.05183v1 ) ライセンス: Link先を確認 | Huitong Pan, Qi Zhang, Cornelia Caragea, Eduard Dragut, Longin Jan Latecki, | (参考訳) フローチャートは、複雑な概念を簡潔な視覚表現で表現するためのグラフィカルなツールである。
本稿ではフローチャートの理解を深めるためのリソースであるFlowLearnデータセットを紹介する。
FlowLearnは複雑な科学的フローチャートとシミュレートされたフローチャートを含んでいる。
科学的サブセットは、科学文献から得られた3,858個のフローチャートを含み、シミュレートされたサブセットは、カスタマイズ可能なスクリプトを使用して作成された10,000個のフローチャートを含む。
データセットには、ビジュアルコンポーネント、OCR、Mermaidコード表現、VQA質問応答ペアのアノテーションが備わっている。
様々な視覚的理解タスクにおけるLVLM(Large Vision-Language Models)の実証された能力にもかかわらず、フローチャートの復号化は科学的コミュニケーションの重要な要素であり、まだ十分には研究されていない。
FlowLearnテストセットは、フローチャート理解におけるLVLMの性能を評価するために作られている。
本研究は、現状のLVLMを徹底的に評価し、既存の限界を特定し、この比較的未探索領域における将来の拡張基盤を確立する。
例えば、シミュレーションフローチャートを含むタスクでは、GPT-4Vはノード数をカウントする際の最高精度(58%)を達成し、ClaudeはOCRタスクの最高精度(83%)を記録した。
注目すべきなのは,FlowLearnフレームワーク内のすべてのタスクにおいて,ひとつのモデルが優れていないことだ。
Flowcharts are graphical tools for representing complex concepts in concise visual representations. This paper introduces the FlowLearn dataset, a resource tailored to enhance the understanding of flowcharts. FlowLearn contains complex scientific flowcharts and simulated flowcharts. The scientific subset contains 3,858 flowcharts sourced from scientific literature and the simulated subset contains 10,000 flowcharts created using a customizable script. The dataset is enriched with annotations for visual components, OCR, Mermaid code representation, and VQA question-answer pairs. Despite the proven capabilities of Large Vision-Language Models (LVLMs) in various visual understanding tasks, their effectiveness in decoding flowcharts - a crucial element of scientific communication - has yet to be thoroughly investigated. The FlowLearn test set is crafted to assess the performance of LVLMs in flowchart comprehension. Our study thoroughly evaluates state-of-the-art LVLMs, identifying existing limitations and establishing a foundation for future enhancements in this relatively underexplored domain. For instance, in tasks involving simulated flowcharts, GPT-4V achieved the highest accuracy (58%) in counting the number of nodes, while Claude recorded the highest accuracy (83%) in OCR tasks. Notably, no single model excels in all tasks within the FlowLearn framework, highlighting significant opportunities for further development. | 翻訳日:2024-07-09 20:46:54 公開日:2024-07-06 |
# ソフトウェア工学におけるリサーチデザインの教育
Teaching Research Design in Software Engineering ( http://arxiv.org/abs/2407.05184v1 ) ライセンス: Link先を確認 | Jefferson Seide Molleri, Kai Petersen, | (参考訳) ソフトウェアエンジニアリング(SE)のダイナミックな分野では、プラクティスが常に進化し、新しい技術に適応している。
研究者にとってこれは、どのように研究を重要かつ効果的に維持するかという課題となる。
経験的ソフトウェア工学(ESE)は、新しい技術を採用する際の実践を伝える知識を批判的に評価し提供することを目的とした競争力として登場した。
実証的研究は、証拠に基づく発見を得るためにデータを収集し分析する厳密なプロセスを必要とする。
このプロセスへの挑戦は数多くあり、多くの研究者、初級者、経験者が、研究の設計に関わる多くの複雑さのために困難を見出した。
この章の中核は、ESEのソフトウェアエンジニアと研究者を教育するために不可欠な、研究設計の基礎的スキルを教えることである。
それは、明確な調査領域の定義、関連する研究課題の定式化、適切な方法論の選択を含む、よく構造化された研究設計の開発に焦点を当てている。
主に研究設計に焦点が当てられているが、この章では研究スコーピングと研究方法の選択についても取り上げている。
このアプローチは、SEにおける変わらぬ技術的景観の複雑さに対処する準備をし、教育カリキュラムの重要な構成要素となる。
In the dynamic field of Software Engineering (SE), where practice is constantly evolving and adapting to new technologies, conducting research is a daunting quest. This poses a challenge for researchers: how to stay relevant and effective in their studies? Empirical Software Engineering (ESE) has emerged as a contending force aiming to critically evaluate and provide knowledge that informs practice in adopting new technologies. Empirical research requires a rigorous process of collecting and analyzing data to obtain evidence-based findings. Challenges to this process are numerous, and many researchers, novice and experienced, found difficulties due to many complexities involved in designing their research. The core of this chapter is to teach foundational skills in research design, essential for educating software engineers and researchers in ESE. It focuses on developing a well-structured research design, which includes defining a clear area of investigation, formulating relevant research questions, and choosing appropriate methodologies. While the primary focus is on research design, this chapter also covers aspects of research scoping and selecting research methods. This approach prepares students to handle the complexities of the ever-changing technological landscape in SE, making it a critical component of their educational curriculum. | 翻訳日:2024-07-09 20:46:54 公開日:2024-07-06 |
# Twitchにおける政治コミュニケーションと政治コミュニケータの理解
Understanding Political Communication and Political Communicators on Twitch ( http://arxiv.org/abs/2407.05186v1 ) ライセンス: Link先を確認 | Sangyeon Kim, | (参考訳) 新しいテクノロジーが急速に政治コミュニケーションのパターンを変えていくにつれ、Twitchのようなプラットフォームは人々の政治情報の消費方法を変えつつある。
このエンターテイメント指向のライブストリーミングプラットフォームは,「ライブストリーミング」や「ストリーミングチャット」といった技術が政治コミュニケーションに与える影響を観察することを可能にする。
Twitchはエンターテイメントに重点を置いているにもかかわらず、政治家や評論家を含む様々な政治俳優を主催している。
本研究は、Twitchの政治を3つの主要な疑問に対処することで探求する。
1)政治Twitchのストリーマーは誰ですか。
2)政治の流れの中でどんなコンテンツがカバーされているか。
3)政治ストリームのオーディエンスはどのように相互作用するのか?
政治ストリーマーを特定するために、Twitch APIを活用し、機械学習のテクニックを監督し、574の政治ストリーマーを特定しました。
トピックモデリングを用いて、政治ストリームの内容を分析し、政治トピックの7つの幅広いカテゴリと、文脈固有の『表』を含むコミュニケーションのユニークなパターンを明らかにした。
さらに,対話パターンを調べるためにユーザ参照ネットワークを作成し,少数のユーザがコミュニケーションネットワークを支配していることを確認した。
この研究は、新しいソーシャルメディア技術が政治コミュニケーションにどのように影響するか、特に若年層の間での理解に寄与する。
As new technologies rapidly reshape patterns of political communication, platforms like Twitch are transforming how people consume political information. This entertainment-oriented live streaming platform allows us to observe the impact of technologies such as ``live-streaming'' and ``streaming-chat'' on political communication. Despite its entertainment focus, Twitch hosts a variety of political actors, including politicians and pundits. This study explores Twitch politics by addressing three main questions: 1) Who are the political Twitch streamers? 2) What content is covered in political streams? 3) How do audiences of political streams interact with each other? To identify political streamers, I leveraged the Twitch API and supervised machine-learning techniques, identifying 574 political streamers. I used topic modeling to analyze the content of political streams, revealing seven broad categories of political topics and a unique pattern of communication involving context-specific ``emotes.'' Additionally, I created user-reference networks to examine interaction patterns, finding that a small number of users dominate the communication network. This research contributes to our understanding of how new social media technologies influence political communication, particularly among younger audiences. | 翻訳日:2024-07-09 20:46:54 公開日:2024-07-06 |
# 技術による言語学習の促進:新しい英語・アゼルバイジャン語(アラビア語)パラレルコーパスの導入
Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus ( http://arxiv.org/abs/2407.05189v1 ) ライセンス: Link先を確認 | Jalil Nourmohammadi Khiarak, Ammar Ahmadi, Taher Ak-bari Saeed, Meysam Asgari-Chenaghlu, Toğrul Atabay, Mohammad Reza Baghban Karimi, Ismail Ceferli, Farzad Hasanvand, Seyed Mahboub Mousavi, Morteza Noshad, | (参考訳) 本稿では、アンダーリソース言語のための言語学習と機械翻訳(MT)の技術的ギャップを埋めるために設計された、英語・アゼルバイジャン語並列コーパスについて紹介する。
548,000のパラレル文と1言語あたり約900万語からなるこのデータセットは、自然言語処理(NLP)アプリケーションと言語教育技術の強化を目的として、ニュース記事や聖文などの多様な情報源から得られたものである。
このコーパスは言語資源、特にニューラルマシン翻訳(NMT)革命にひっかかったトルコ語にとって、言語資源の領域において重要な一歩を踏み出した。
英語とアゼルバイジャン語(アラビア語)の言語ペアに関する最初の包括的ケーススタディを提示することで、この研究は低リソースの文脈におけるNTTの変容の可能性を強調している。
このコーパスの開発と利用は、特定の言語的ニーズに合わせた機械翻訳システムの発展を促進するだけでなく、技術を通じた包括的言語学習を促進する。
本研究は,深層学習型MTシステムの学習におけるコーパスの有効性を明らかにし,バイリンガル教育と多言語コミュニケーションの育成を目指す研究者や教育者にとって,その役割を明らかにするものである。
本研究は,本格的なデジタルリソースを欠く言語に対するNMT応用の今後の研究方法について取り上げ,グローバルな言語教育フレームワークの強化を図っている。
コードのPythonパッケージはhttps://pypi.org/project/chevir-kartalol/で入手できます。
This paper introduces a pioneering English-Azerbaijani (Arabic Script) parallel corpus, designed to bridge the technological gap in language learning and machine translation (MT) for under-resourced languages. Consisting of 548,000 parallel sentences and approximately 9 million words per language, this dataset is derived from diverse sources such as news articles and holy texts, aiming to enhance natural language processing (NLP) applications and language education technology. This corpus marks a significant step forward in the realm of linguistic resources, particularly for Turkic languages, which have lagged in the neural machine translation (NMT) revolution. By presenting the first comprehensive case study for the English-Azerbaijani (Arabic Script) language pair, this work underscores the transformative potential of NMT in low-resource contexts. The development and utilization of this corpus not only facilitate the advancement of machine translation systems tailored for specific linguistic needs but also promote inclusive language learning through technology. The findings demonstrate the corpus's effectiveness in training deep learning MT systems and underscore its role as an essential asset for researchers and educators aiming to foster bilingual education and multilingual communication. This research covers the way for future explorations into NMT applications for languages lacking substantial digital resources, thereby enhancing global language education frameworks. The Python package of our code is available at https://pypi.org/project/chevir-kartalol/, and we also have a website accessible at https://translate.kartalol.com/. | 翻訳日:2024-07-09 20:46:54 公開日:2024-07-06 |
# CBM:マスキングによるカリキュラム
CBM: Curriculum by Masking ( http://arxiv.org/abs/2407.05193v1 ) ライセンス: Link先を確認 | Andrei Jarca, Florinel-Alin Croitoru, Radu Tudor Ionescu, | (参考訳) 本稿では,従来の学習体系と従来のカリキュラム学習(CL)手法に比較して,大幅な精度向上を実現し,パッチ(Token)マスキングによる訓練スケジュールを効果的に作成する,最先端のカリキュラム学習戦略であるCBMを提案する。
CBMは勾配のマグニチュードを利用して、新しいマスキングアルゴリズムと新しいマスキングブロックによって、正常な画像領域のマスキングを優先順位付けする。
提案手法は, パッチマスキング比によってサンプルの難易度を制御し, 学習が進むにつれて, より厳密なサンプルを徐々に導入し, 有効なカリキュラムを生成する。
CBMは、パッチの数とカリキュラムスケジュールの2つの簡単に設定可能なパラメータで動作し、オブジェクト認識と検出のための汎用的なカリキュラム学習アプローチとなっている。
畳み込みネットワークからビジョントランスフォーマーまで,5つのベンチマークデータセット(CIFAR-10, CIFAR-100, ImageNet, Food-101, PASCAL VOC)を用いて,CBMと従来のカリキュラムベースのトレーニングシステムとの比較実験を行った。
その結果,最先端のカリキュラム学習体制と比較して,戦略の優位性を明らかにした。
また,CBMが先行研究を精度面でかなり上回り,伝達学習の文脈の改善も観察した。
当社のコードは、https://github.com/CroitoruAlin/CBMで無償の非商用利用のためにリリースしています。
We propose Curriculum by Masking (CBM), a novel state-of-the-art curriculum learning strategy that effectively creates an easy-to-hard training schedule via patch (token) masking, offering significant accuracy improvements over the conventional training regime and previous curriculum learning (CL) methods. CBM leverages gradient magnitudes to prioritize the masking of salient image regions via a novel masking algorithm and a novel masking block. Our approach enables controlling sample difficulty via the patch masking ratio, generating an effective easy-to-hard curriculum by gradually introducing harder samples as training progresses. CBM operates with two easily configurable parameters, i.e. the number of patches and the curriculum schedule, making it a versatile curriculum learning approach for object recognition and detection. We conduct experiments with various neural architectures, ranging from convolutional networks to vision transformers, on five benchmark data sets (CIFAR-10, CIFAR-100, ImageNet, Food-101 and PASCAL VOC), to compare CBM with conventional as well as curriculum-based training regimes. Our results reveal the superiority of our strategy compared with the state-of-the-art curriculum learning regimes. We also observe improvements in transfer learning contexts, where CBM surpasses previous work by considerable margins in terms of accuracy. We release our code for free non-commercial use at https://github.com/CroitoruAlin/CBM. | 翻訳日:2024-07-09 20:46:54 公開日:2024-07-06 |
# LLMCloudHunter:クラウドベースのCTIから検出ルールの自動抽出のためのLLMのハーネス化
LLMCloudHunter: Harnessing LLMs for Automated Extraction of Detection Rules from Cloud-Based CTI ( http://arxiv.org/abs/2407.05194v1 ) ライセンス: Link先を確認 | Yuval Schwartz, Lavi Benshimol, Dudu Mimran, Yuval Elovici, Asaf Shabtai, | (参考訳) サイバー攻撃の回数と高度化が進むにつれて、脅威狩りは積極的なセキュリティの重要な側面となり、脅威を積極的に検出し、重大な被害をもたらす前に軽減することができるようになった。
オープンソースのサイバー脅威インテリジェンス(OS-CTI)は、脅威ハンターにとって貴重なリソースである。
従来のOSCTI分析の自動化を目的とした研究は,(1)動作可能なアウトプットの提供に失敗したこと,(2)OSCTIのソースに存在するイメージを活用できなかったこと,(3)クラウド環境の重要性の高まりを見越して,オンプレミス環境に重点を置いていたことなどから,制限されている。
これらのギャップに対処するために,LLMCloudHunterを提案する。LLMCloudHunterは大規模言語モデル(LLM)を活用し,テキストおよびビジュアルOSCTIデータから汎用署名検出規則候補を自動的に生成するフレームワークである。
提案するフレームワークが生成するルールの質を,12のアノテートされた実世界のクラウド脅威レポートを用いて評価した。
その結果,本フレームワークは,脅威アクターによるAPI呼び出しを正確に抽出する作業において,92%の精度を達成し,98%のリコールを達成し,99%の精度でIoCのリコールを行うことができた。
さらに、生成された検出ルール候補の99.18%が正常にコンパイルされ、Splunkクエリに変換された。
As the number and sophistication of cyber attacks have increased, threat hunting has become a critical aspect of active security, enabling proactive detection and mitigation of threats before they cause significant harm. Open-source cyber threat intelligence (OS-CTI) is a valuable resource for threat hunters, however, it often comes in unstructured formats that require further manual analysis. Previous studies aimed at automating OSCTI analysis are limited since (1) they failed to provide actionable outputs, (2) they did not take advantage of images present in OSCTI sources, and (3) they focused on on-premises environments, overlooking the growing importance of cloud environments. To address these gaps, we propose LLMCloudHunter, a novel framework that leverages large language models (LLMs) to automatically generate generic-signature detection rule candidates from textual and visual OSCTI data. We evaluated the quality of the rules generated by the proposed framework using 12 annotated real-world cloud threat reports. The results show that our framework achieved a precision of 92% and recall of 98% for the task of accurately extracting API calls made by the threat actor and a precision of 99% with a recall of 98% for IoCs. Additionally, 99.18% of the generated detection rule candidates were successfully compiled and converted into Splunk queries. | 翻訳日:2024-07-09 20:46:54 公開日:2024-07-06 |
# 5G RANにおける一般化変圧器を用いた無線リンク故障予測フレームワーク
A Generalized Transformer-based Radio Link Failure Prediction Framework in 5G RANs ( http://arxiv.org/abs/2407.05197v1 ) ライセンス: Link先を確認 | Kazi Hasan, Thomas Trappenberg, Israat Haque, | (参考訳) LAN(Radio Access Networks)における無線リンク障害(RLF)予測システムは,高データレート,低レイテンシ,5Gネットワークの信頼性向上といった厳密な要求を満たすために重要である。
しかし、降水、湿度、気温、風などの気象条件がこれらの通信に影響を及ぼす。
通常、KPI(Key Performance Indicators)とその周辺の気象観測は、学習に基づくRLF予測モデルの構築に利用される。
しかし、このようなモデルでは、動的RANで空間気象コンテキストを学習し、気象観測データを用いて時系列KPIを効果的に符号化できなければならない。
既存の作業は、予測モデルのこれらの重要な設計側面の両方を組み込むことができない。
本稿では,グラフニューラルネットワーク(GNN)に基づく学習可能な気象効果集約モジュールを導入した新しいRLF予測フレームワークであるGenTrapを提案し,そのギャップを埋める。
GenTrapのアグリゲーション手法は、既存の予測モデルに組み込んで、より良い性能と一般化性を実現することができる。
我々はGenTrapを260万KPIのデータポイントを持つ2つの実世界のデータセット(農村部と都市部)で評価し、GenTrapが一般化能力を持ちながらF1スコア(農村部は0.93、都市部は0.79)を大幅に高めていることを示す。
Radio link failure (RLF) prediction system in Radio Access Networks (RANs) is critical for ensuring seamless communication and meeting the stringent requirements of high data rates, low latency, and improved reliability in 5G networks. However, weather conditions such as precipitation, humidity, temperature, and wind impact these communication links. Usually, historical radio link Key Performance Indicators (KPIs) and their surrounding weather station observations are utilized for building learning-based RLF prediction models. However, such models must be capable of learning the spatial weather context in a dynamic RAN and effectively encoding time series KPIs with the weather observation data. Existing works fail to incorporate both of these essential design aspects of the prediction models. This paper fills the gap by proposing GenTrap, a novel RLF prediction framework that introduces a graph neural network (GNN)-based learnable weather effect aggregation module and employs state-of-the-art time series transformer as the temporal feature extractor for radio link failure prediction. The proposed aggregation method of GenTrap can be integrated into any existing prediction model to achieve better performance and generalizability. We evaluate GenTrap on two real-world datasets (rural and urban) with 2.6 million KPI data points and show that GenTrap offers a significantly higher F1-score (0.93 for rural and 0.79 for urban) compared to its counterparts while possessing generalization capability. | 翻訳日:2024-07-09 20:46:54 公開日:2024-07-06 |
# LLMの力の調和:高性能コンピューティングのための単体テスト生成の自動化
Harnessing the Power of LLMs: Automating Unit Test Generation for High-Performance Computing ( http://arxiv.org/abs/2407.05202v1 ) ライセンス: Link先を確認 | Rabimba Karanjai, Aftab Hussain, Md Rafiqul Islam Rabin, Lei Xu, Weidong Shi, Mohammad Amin Alipour, | (参考訳) ユニットテストは、品質を保証するために、ソフトウェア工学において不可欠です。
しかし、より小さく多様なユーザベースと複雑なロジックのため、並列・高性能コンピューティングソフトウェア、特に科学応用では広く使われていない。
これらの要因は、専門知識を必要とし、既存の自動化ツールがしばしば有効ではないため、単体テストが困難でコストがかかる。
そこで本研究では,複雑な論理処理や並列処理といったユニークな特徴を考慮し,そのようなソフトウェアのための単体テストの自動生成手法を提案する。
最近、大規模言語モデル(LLM)は、コーディングとテストにおいて有望であることを示している。
我々は,C++並列プログラムの単体テスト作成におけるDavinci(text-davinci-002)とChatGPT(gpt-3.5-turbo)の機能について検討した。
以上の結果から,LLMは繰り返しアサーションや空白テストケースなど,いくつかの制限があるものの,ほぼ正確かつ包括的な単体テストを生成することが可能であることが示唆された。
Unit testing is crucial in software engineering for ensuring quality. However, it's not widely used in parallel and high-performance computing software, particularly scientific applications, due to their smaller, diverse user base and complex logic. These factors make unit testing challenging and expensive, as it requires specialized knowledge and existing automated tools are often ineffective. To address this, we propose an automated method for generating unit tests for such software, considering their unique features like complex logic and parallel processing. Recently, large language models (LLMs) have shown promise in coding and testing. We explored the capabilities of Davinci (text-davinci-002) and ChatGPT (gpt-3.5-turbo) in creating unit tests for C++ parallel programs. Our results show that LLMs can generate mostly correct and comprehensive unit tests, although they have some limitations, such as repetitive assertions and blank test cases. | 翻訳日:2024-07-09 20:46:54 公開日:2024-07-06 |
# Helios:常時オンのスマートアイウェアのための極めて低消費電力なイベントベースのジェスチャー認識
Helios: An extremely low power event-based gesture recognition for always-on smart eyewear ( http://arxiv.org/abs/2407.05206v1 ) ライセンス: Link先を確認 | Prarthana Bhattacharyya, Joshua Mitton, Ryan Page, Owen Morgan, Ben Menzies, Gabriel Homewood, Kemi Jacobs, Paolo Baesso, Dave Trickett, Chris Mair, Taru Muhonen, Rory Clark, Louis Berridge, Richard Vigars, Iain Wallace, | (参考訳) 本稿では,スマートアイウェアの日中使用用に設計された,非常に低消費電力でリアルタイムなイベントベースの手ジェスチャー認識システムであるHeliosを紹介する。
拡張現実(AR)が進化するにつれて、Meta Ray-Bansのような現在のスマートグラスは、機能を犠牲にして視覚とウェアラブルの快適さを優先する。
これらのデバイスに既存のヒューマンマシンインタフェース(HMI)(Capacitive Touch and Voice Control)は、エルゴノミクス、プライバシ、電力消費の制限を提示する。
Heliosは、より直感的で快適なユーザエクスペリエンスのために、自然なハンドインタラクションを活用することで、これらの課題に対処する。
本システムは,超低消費電力でコンパクトな3mmx4mm/20mWイベントカメラを用いて,常時オン型スマートアイウェアの自然な手動ジェスチャー認識を行う。
カメラの出力は、NXP Nano UltraLite計算プラットフォーム上で動作する畳み込みニューラルネットワーク(CNN)によって処理され、350mW未満を消費する。
Heliosは、スワイプやピンチなどの微妙なマイクロジェスチャーを含む7種類のジェスチャーを91%の精度で認識できる。
また、60ミリ秒という極めて低いレイテンシで、20ユーザにわたるリアルタイムパフォーマンスを実演しています。
ユーザテストの結果は、先日のAWE-USA-2024でのデモで得られた肯定的なフィードバックと一致しています。
This paper introduces Helios, the first extremely low-power, real-time, event-based hand gesture recognition system designed for all-day on smart eyewear. As augmented reality (AR) evolves, current smart glasses like the Meta Ray-Bans prioritize visual and wearable comfort at the expense of functionality. Existing human-machine interfaces (HMIs) in these devices, such as capacitive touch and voice controls, present limitations in ergonomics, privacy and power consumption. Helios addresses these challenges by leveraging natural hand interactions for a more intuitive and comfortable user experience. Our system utilizes a extremely low-power and compact 3mmx4mm/20mW event camera to perform natural hand-based gesture recognition for always-on smart eyewear. The camera's output is processed by a convolutional neural network (CNN) running on a NXP Nano UltraLite compute platform, consuming less than 350mW. Helios can recognize seven classes of gestures, including subtle microgestures like swipes and pinches, with 91% accuracy. We also demonstrate real-time performance across 20 users at a remarkably low latency of 60ms. Our user testing results align with the positive feedback we received during our recent successful demo at AWE-USA-2024. | 翻訳日:2024-07-09 20:46:54 公開日:2024-07-06 |
# BadCLM:電子カルテにおける臨床言語モデルにおけるバックドアアタック
BadCLM: Backdoor Attack in Clinical Language Models for Electronic Health Records ( http://arxiv.org/abs/2407.05213v1 ) ライセンス: Link先を確認 | Weimin Lyu, Zexin Bi, Fusheng Wang, Chao Chen, | (参考訳) 臨床診断支援のための電子健康記録(EHR)に組み込まれた臨床言語モデルの出現は、臨床ノートの深さを活用して意思決定の改善に寄与した。
彼らの成功にもかかわらず、これらのモデルの潜在的な脆弱性はほとんど未解明のままである。
本稿では,臨床言語モデルに対するバックドアアタックの領域を掘り下げ,革新的なアテンションベースのバックドアアタック手法であるBadCLMを導入する。
このテクニックは、モデル内にバックドアをこっそり埋め込んで、事前に定義されたトリガーが入力に存在しているときに、正確に機能しながら誤った予測を発生させる。
我々は,MIMIC IIIデータセットを用いた院内死亡予測タスクを通じてBadCLMの有効性を実証し,モデル整合性を損なう可能性を示した。
本研究は,臨床診断支援システムにおける重大なセキュリティリスクを浮き彫りにし,そのような脆弱性に対する臨床言語モデルの強化に向けた今後の取り組みの道を開くものである。
The advent of clinical language models integrated into electronic health records (EHR) for clinical decision support has marked a significant advancement, leveraging the depth of clinical notes for improved decision-making. Despite their success, the potential vulnerabilities of these models remain largely unexplored. This paper delves into the realm of backdoor attacks on clinical language models, introducing an innovative attention-based backdoor attack method, BadCLM (Bad Clinical Language Models). This technique clandestinely embeds a backdoor within the models, causing them to produce incorrect predictions when a pre-defined trigger is present in inputs, while functioning accurately otherwise. We demonstrate the efficacy of BadCLM through an in-hospital mortality prediction task with MIMIC III dataset, showcasing its potential to compromise model integrity. Our findings illuminate a significant security risk in clinical decision support systems and pave the way for future endeavors in fortifying clinical language models against such vulnerabilities. | 翻訳日:2024-07-09 20:46:54 公開日:2024-07-06 |
# LPViT:ビジョントランス用低消費電力半構造化プルーニング
LPViT: Low-Power Semi-structured Pruning for Vision Transformers ( http://arxiv.org/abs/2407.02068v2 ) ライセンス: Link先を確認 | Kaixin Xu, Zhe Wang, Chunyun Chen, Xue Geng, Jie Lin, Xulei Yang, Min Wu, Xiaoli Li, Weisi Lin, | (参考訳) ビジョントランスフォーマーは、様々な画像解析タスクのための畳み込みニューラルネットワークに代わる有望な代替として登場し、同等または優れたパフォーマンスを提供している。
しかし、ViTの重大な欠点は、そのリソース集約性であり、メモリフットプリントの増加、計算の複雑さ、電力消費につながる。
この高性能技術を民主化し、環境に優しいものにするためには、ViTモデルを圧縮し、高い性能を維持しながらリソース要求を減らすことが不可欠である。
本稿では,ViTの資源集約的な問題に対処するブロック構造化プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
非構造化プルーニングやチャネルワイドプルーニングとは異なり、ブロックプルーニングは線形層のブロックワイド構造を利用しており、より効率的な行列乗算をもたらす。
このプルーニング方式を最適化するために,ブロック間隔構造に合わせて,高速化と推論時の消費電力の最小化を同時に行う,ハードウェア対応学習目標を提案する。
この目的は、経験的なルックアップテーブルの必要性を排除し、パラメタライズされたレイヤ接続の削減にのみ焦点をあてる。
さらに,本論文では,2次テイラー近似と経験的最適化を用いて,ViTの学習後プルーニングを実現するための軽量なアルゴリズムを提案する。
ImageNetの大規模な実験は、DeiT-BやDeiT-Sなど様々なViTアーキテクチャで行われ、他のプルーニング手法と競合する性能を示し、精度の保存と省電力の両立を実現している。
特に,DeiT-Bでは専用ハードウェアで最大3.93倍,GPUで1.79倍の高速化を実現し,実世界のGPUで1.4倍の推論パワー低下を観測した。
Vision transformers have emerged as a promising alternative to convolutional neural networks for various image analysis tasks, offering comparable or superior performance. However, one significant drawback of ViTs is their resource-intensive nature, leading to increased memory footprint, computation complexity, and power consumption. To democratize this high-performance technology and make it more environmentally friendly, it is essential to compress ViT models, reducing their resource requirements while maintaining high performance. In this paper, we introduce a new block-structured pruning to address the resource-intensive issue for ViTs, offering a balanced trade-off between accuracy and hardware acceleration. Unlike unstructured pruning or channel-wise structured pruning, block pruning leverages the block-wise structure of linear layers, resulting in more efficient matrix multiplications. To optimize this pruning scheme, our paper proposes a novel hardware-aware learning objective that simultaneously maximizes speedup and minimizes power consumption during inference, tailored to the block sparsity structure. This objective eliminates the need for empirical look-up tables and focuses solely on reducing parametrized layer connections. Moreover, our paper provides a lightweight algorithm to achieve post-training pruning for ViTs, utilizing second-order Taylor approximation and empirical optimization to solve the proposed hardware-aware objective. Extensive experiments on ImageNet are conducted across various ViT architectures, including DeiT-B and DeiT-S, demonstrating competitive performance with other pruning methods and achieving a remarkable balance between accuracy preservation and power savings. Especially, we achieve up to 3.93x and 1.79x speedups on dedicated hardware and GPUs respectively for DeiT-B, and also observe an inference power reduction by 1.4x on real-world GPUs. | 翻訳日:2024-07-09 10:41:17 公開日:2024-07-06 |
# SegVG:ビジュアルグラウンドのためのオブジェクト境界ボックスをセグメンテーションに転送する
SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding ( http://arxiv.org/abs/2407.03200v2 ) ライセンス: Link先を確認 | Weitai Kang, Gaowen Liu, Mubarak Shah, Yan Yan, | (参考訳) Object Detectionとは異なり、Visual Groundingは各テキストイメージペアのバウンディングボックスを検出する。
各テキストイメージデータに対する1つのボックスは、疎い監視信号を提供する。
従来の研究は印象的な結果を得たが、そのパッシブなアノテーションの利用、すなわち回帰基底真理としてのボックスアノテーションの唯一の使用は、準最適性能をもたらす。
本稿では,ボックスレベルのアノテーションをセグメンテーション信号として転送する新しい手法であるSegVGについて述べる。
具体的には,マルチレイヤのマルチタスク・エンコーダ・デコーダをターゲットグラウンドとして提案し,各デコード層におけるボックスの回帰とセグメント化によってターゲットをグラウンド化する回帰クエリと多重セグメンテーションクエリを学習する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
さらに、バックボーンは通常、単調なタスクから学習した事前訓練されたパラメータによって初期化され、回帰とセグメンテーションの両方のクエリは静的に学習可能な埋め込みである。
この相違を緩和するために、三重注意機構によって同じ空間を共有するために、クエリ、テキスト、ビジョントークンを三角形に更新するトリプルアライメントモジュールを導入する。
広く使われている5つのデータセットに対する大規模な実験は、私たちの最先端(SOTA)のパフォーマンスを検証する。
Different from Object Detection, Visual Grounding deals with detecting a bounding box for each text-image pair. This one box for each text-image data provides sparse supervision signals. Although previous works achieve impressive results, their passive utilization of annotation, i.e. the sole use of the box annotation as regression ground truth, results in a suboptimal performance. In this paper, we present SegVG, a novel method transfers the box-level annotation as Segmentation signals to provide an additional pixel-level supervision for Visual Grounding. Specifically, we propose the Multi-layer Multi-task Encoder-Decoder as the target grounding stage, where we learn a regression query and multiple segmentation queries to ground the target by regression and segmentation of the box in each decoding layer, respectively. This approach allows us to iteratively exploit the annotation as signals for both box-level regression and pixel-level segmentation. Moreover, as the backbones are typically initialized by pretrained parameters learned from unimodal tasks and the queries for both regression and segmentation are static learnable embeddings, a domain discrepancy remains among these three types of features, which impairs subsequent target grounding. To mitigate this discrepancy, we introduce the Triple Alignment module, where the query, text, and vision tokens are triangularly updated to share the same space by triple attention mechanism. Extensive experiments on five widely used datasets validate our state-of-the-art (SOTA) performance. | 翻訳日:2024-07-09 10:41:17 公開日:2024-07-06 |
# 意識駆動型制約バランシングによる視覚的グラウンドリング
Visual Grounding with Attention-Driven Constraint Balancing ( http://arxiv.org/abs/2407.03243v2 ) ライセンス: Link先を確認 | Weitai Kang, Luowei Zhou, Junyi Wu, Changchang Sun, Yan Yan, | (参考訳) オブジェクト検出とは異なり、ビジュアルグラウンドタスクは複雑な自由形式言語で記述されたオブジェクトの検出を必要とする。
このような複雑な意味表現と視覚表現を同時にモデル化するために、最近の最先端研究ではトランスフォーマーモデルを用いて両方のモダリティから特徴を融合させ、さらに視覚的特徴を修飾して言語表現と整合し、無関係な冗長情報を除去する様々なモジュールを導入している。
しかし、それらの損失関数は、まだ共通のオブジェクト検出損失を採用しており、境界ボックスの回帰出力のみを支配しており、上記の目的のために完全に最適化することができない。
この問題に対処するため,本論文ではまず,変圧器モデルにおける注意機構を解析する。
これに基づいて,言語関連領域における視覚的特徴の振舞いを最適化する,AttBalance(AttDriven Constraint Balancing)という新しいフレームワークを提案する。
実験結果から,本手法は優れた改善をもたらすことが示された。
具体的には、4つの異なるベンチマークで評価された5つの異なるモデルに対して一定の改善が達成される。
さらに,本手法をQRNetに組み込むことで,最先端のパフォーマンスを実現する。
Unlike Object Detection, Visual Grounding task necessitates the detection of an object described by complex free-form language. To simultaneously model such complex semantic and visual representations, recent state-of-the-art studies adopt transformer-based models to fuse features from both modalities, further introducing various modules that modulate visual features to align with the language expressions and eliminate the irrelevant redundant information. However, their loss function, still adopting common Object Detection losses, solely governs the bounding box regression output, failing to fully optimize for the above objectives. To tackle this problem, in this paper, we first analyze the attention mechanisms of transformer-based models. Building upon this, we further propose a novel framework named Attention-Driven Constraint Balancing (AttBalance) to optimize the behavior of visual features within language-relevant regions. Extensive experimental results show that our method brings impressive improvements. Specifically, we achieve constant improvements over five different models evaluated on four different benchmarks. Moreover, we attain a new state-of-the-art performance by integrating our method into QRNet. | 翻訳日:2024-07-09 10:33:20 公開日:2024-07-06 |
# ACTRESS:半教師付き視覚接地のためのアクティブリトレーニング
ACTRESS: Active Retraining for Semi-supervised Visual Grounding ( http://arxiv.org/abs/2407.03251v2 ) ライセンス: Link先を確認 | Weitai Kang, Mengxue Qu, Yunchao Wei, Yan Yan, | (参考訳) Semi-Supervised Visual Grounding (SSVG)は、マルチモデル理解を必要とするスパースラベル付きデータの新たな課題である。
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
しかしこのアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
これらのパイプラインは、リージョンの提案やフォアグラウンドのバイナリ分類なしに結果を直接後退させ、信頼スコアがないためにRefTeacherに適合するのに適さない。
さらに、教師と学生の入力の幾何学的差異は、異なるデータ拡張から生じるものであり、注意に基づく制約の中で自然のミスアライメントを引き起こす。
本稿では,SSVGフレームワークの互換性を確立するために,アクティブ・リトレーニング手法を提案する。
当初は、検出信頼性を公開するために、追加の量子化検出ヘッドを組み込むことで、モデルが強化される。
これに基づいて、ACTRESSはアクティブサンプリング戦略と選択的再訓練戦略から構成される。
アクティブサンプリング戦略は、信頼度、ロバスト性、信頼の3つの重要な側面を評価し、ラベルなしデータの利用を最適化することで、高品質な擬似ラベルを反復的に選択する。
選択的再訓練戦略は、特定のパラメータの周期的再初期化によってモデルを再訓練し、モデルが局所的なミニマから逃れるのを容易にする。
大規模な実験は、広く使用されているベンチマークデータセットにおいて、私たちの優れたパフォーマンスを示しています。
Semi-Supervised Visual Grounding (SSVG) is a new challenge for its sparse labeled data with the need for multimodel understanding. A previous study, RefTeacher, makes the first attempt to tackle this task by adopting the teacher-student framework to provide pseudo confidence supervision and attention-based supervision. However, this approach is incompatible with current state-of-the-art visual grounding models, which follow the Transformer-based pipeline. These pipelines directly regress results without region proposals or foreground binary classification, rendering them unsuitable for fitting in RefTeacher due to the absence of confidence scores. Furthermore, the geometric difference in teacher and student inputs, stemming from different data augmentations, induces natural misalignment in attention-based constraints. To establish a compatible SSVG framework, our paper proposes the ACTive REtraining approach for Semi-Supervised Visual Grounding, abbreviated as ACTRESS. Initially, the model is enhanced by incorporating an additional quantized detection head to expose its detection confidence. Building upon this, ACTRESS consists of an active sampling strategy and a selective retraining strategy. The active sampling strategy iteratively selects high-quality pseudo labels by evaluating three crucial aspects: Faithfulness, Robustness, and Confidence, optimizing the utilization of unlabeled data. The selective retraining strategy retrains the model with periodic re-initialization of specific parameters, facilitating the model's escape from local minima. Extensive experiments demonstrates our superior performance on widely-used benchmark datasets. | 翻訳日:2024-07-09 10:33:20 公開日:2024-07-06 |