このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240330となっている論文です。

PDF登録状況(公開日: 20240330)

TitleAuthorsAbstract論文公表日・翻訳日
# ProLLM:タンパク質とタンパク質の相互作用予測のためのLLMの強化

ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction ( http://arxiv.org/abs/2405.06649v1 )

ライセンス: Link先を確認
Mingyu Jin, Haochen Xue, Zhenting Wang, Boming Kang, Ruosong Ye, Kaixiong Zhou, Mengnan Du, Yongfeng Zhang, (参考訳) タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。 PPI予測に対する従来の機械学習アプローチは、主に直接物理的相互作用に焦点を当てており、中間タンパク質による非物理的接続の広いコンテキストを無視し、その効果を制限している。 大規模言語モデル(LLM)の出現は、この複雑な生物学的課題に対処する新たな機会を提供する。 構造化されたデータを自然言語のプロンプトに変換することで、タンパク質間の関係をテキストにマッピングできる。 このアプローチにより、LLMはタンパク質間の間接的な接続を識別し、上流から下流への経路をトレースすることができる。 そこで本研究では,PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。 具体的には、自然言語のプロンプトとしてシグナル伝達経路の生物学的機構を複製する、思考のタンパク質鎖(ProCoT)を提案する。 ProCoTはシグナル伝達経路を、上流タンパク質から始まり、いくつかの中間タンパク質を通過して下流タンパク質に生物学的シグナルを伝達するタンパク質推論過程とみなしている。 したがって、上流タンパクと下流タンパクとの相互作用を予測するためにProCoTを使用することができる。 ProLLMのトレーニングには、複雑な生物学的問題に対するモデルの理解を深めるProCoTフォーマットが使用されている。 本稿では,ProCoTに加えて,自然言語のプロンプトにタンパク質サイトを埋め込む方法の探索や,タンパク質知識データセットの微調整の指導にも貢献する。 本稿では,ベンチマークデータセットに対する厳密な検証による ProLLM の有効性を実証し,予測精度と一般化性の観点から既存手法よりも大幅に向上したことを示す。 コードは、https://github.com/MingyuJ666/ProLLM.comで入手できる。

The prediction of protein-protein interactions (PPIs) is crucial for understanding biological functions and diseases. Previous machine learning approaches to PPI prediction mainly focus on direct physical interactions, ignoring the broader context of nonphysical connections through intermediate proteins, thus limiting their effectiveness. The emergence of Large Language Models (LLMs) provides a new opportunity for addressing this complex biological challenge. By transforming structured data into natural language prompts, we can map the relationships between proteins into texts. This approach allows LLMs to identify indirect connections between proteins, tracing the path from upstream to downstream. Therefore, we propose a novel framework ProLLM that employs an LLM tailored for PPI for the first time. Specifically, we propose Protein Chain of Thought (ProCoT), which replicates the biological mechanism of signaling pathways as natural language prompts. ProCoT considers a signaling pathway as a protein reasoning process, which starts from upstream proteins and passes through several intermediate proteins to transmit biological signals to downstream proteins. Thus, we can use ProCoT to predict the interaction between upstream proteins and downstream proteins. The training of ProLLM employs the ProCoT format, which enhances the model's understanding of complex biological problems. In addition to ProCoT, this paper also contributes to the exploration of embedding replacement of protein sites in natural language prompts, and instruction fine-tuning in protein knowledge datasets. We demonstrate the efficacy of ProLLM through rigorous validation against benchmark datasets, showing significant improvement over existing methods in terms of prediction accuracy and generalizability. The code is available at: https://github.com/MingyuJ666/ProLLM.
翻訳日:2024-07-01 10:40:42 公開日:2024-03-30
# 受動RF画像とEO画像を用いた小型局所化・同定のための多段階核融合アーキテクチャ

Multi-Stage Fusion Architecture for Small-Drone Localization and Identification Using Passive RF and EO Imagery: A Case Study ( http://arxiv.org/abs/2406.16875v1 )

ライセンス: Link先を確認
Thakshila Wimalajeewa Wewelwala, Thomas W. Tedesso, Tony Davis, (参考訳) 無人航空機システム(UAS)の安全で安全でプライバシーを尊重する運用を促進するためには、小型ドローンの信頼性の高い検出、位置特定、識別が不可欠である。 これは、特に小さなドローンを検知し識別するために、単一のモダリティセンサーのみを使用するという、ますます難しい問題である。 本研究では、受動無線周波数(RF)と電気光学(EO)画像データを用いた多段階融合アーキテクチャを開発し、その相乗効果を活用し、全体的な追跡と分類能力を向上させる。 EO-imageryを用いた検出では,教師なしの深層学習技術と教師なしの地上/後方分離技術を用いて,困難な環境に対処する。 グループ1とグループ2のドローンの実際の収集データを用いて、各アルゴリズムの能力を定量化する。 EO画像のみの検出におけるパフォーマンスギャップを補うとともに、ドローン用のユニークなデバイス識別子を提供するために、受動RFはいつでもEO画像と統合される。 特に、画像平面内のドローン検出は、3Dから2Dへの変換後の検出と検出の関連を通して、受動的RF位置推定と組み合わせられる。 2次元画像平面における合成検出において、最終追跡を行う。 各トラックセントロイドには、RFフィンガープリントによって得られたユニークな識別が与えられる。 ESCAPE-21(Experiments, Scenarios, Concept of Operations, and Prototype Engineering)データ収集による空軍研究所(AFRL)で同時に収集された受動RFとEOデータを用いて,提案手法の有効性を示すため,提案手法の範囲内での追跡と性能の定量化を行った。

Reliable detection, localization and identification of small drones is essential to promote safe, secure and privacy-respecting operation of Unmanned-Aerial Systems (UAS), or simply, drones. This is an increasingly challenging problem with only single modality sensing, especially, to detect and identify small drones. In this work, a multi-stage fusion architecture using passive radio frequency (RF) and electro-optic (EO) imagery data is developed to leverage the synergies of the modalities to improve the overall tracking and classification capabilities. For detection with EO-imagery, supervised deep learning based techniques as well as unsupervised foreground/background separation techniques are explored to cope with challenging environments. Using real collected data for Group 1 and 2 drones, the capability of each algorithm is quantified. In order to compensate for any performance gaps in detection with only EO imagery as well as to provide a unique device identifier for the drones, passive RF is integrated with EO imagery whenever available. In particular, drone detections in the image plane are combined with passive RF location estimates via detection-to-detection association after 3D to 2D transformation. Final tracking is performed on the composite detections in the 2D image plane. Each track centroid is given a unique identification obtained via RF fingerprinting. The proposed fusion architecture is tested and the tracking and performance is quantified over the range to illustrate the effectiveness of the proposed approaches using simultaneously collected passive RF and EO data at the Air Force Research Laboratory (AFRL) through ESCAPE-21 (Experiments, Scenarios, Concept of Operations, and Prototype Engineering) data collect
翻訳日:2024-07-01 06:51:29 公開日:2024-03-30
# 分散ディープラーニングの前進

Going Forward-Forward in Distributed Deep Learning ( http://arxiv.org/abs/2404.08573v1 )

ライセンス: Link先を確認
Ege Aktemur, Ege Zorlutuna, Kaan Bilgili, Tacettin Emre Bok, Berrin Yanikoglu, Suha Orhun Mutluergil, (参考訳) 本稿では,分散コンピューティング環境におけるニューラルネットワークのトレーニングを強化するために,Geoffrey Hinton の Forward-Forward (FF) アルゴリズムを用いた分散ディープラーニングの新しいアプローチを提案する。 フォワードパスとバックパスに依存する従来の手法とは異なり、FFアルゴリズムは2つのフォワードパス戦略を採用しており、従来のバックプロパゲーションプロセスとは大きく異なる。 この新しい手法は、人間の脳の処理機構とより密に連携し、ニューラルネットワークのトレーニングに対してより効率的で生物学的に妥当なアプローチを提供する可能性がある。 本研究では,分散環境でのFFアルゴリズムの実装について検討し,ニューラルネットワークレイヤの並列トレーニングを容易にする能力に着目した。 この並列性は、トレーニング時間とリソース消費を削減し、現在の分散ディープラーニングシステムに固有の課題に対処することを目的としています。 分散コンピューティングにおけるFFアルゴリズムの有効性を解析することにより、分散ディープラーニングシステムにおけるトランスフォーメーションツールとしての可能性を示し、トレーニング効率を向上させることを目指している。 FFアルゴリズムを分散ディープラーニングに統合することは、この分野における重要な一歩であり、ニューラルネットワークの分散環境でのトレーニング方法に革命をもたらす可能性がある。

This paper introduces a new approach in distributed deep learning, utilizing Geoffrey Hinton's Forward-Forward (FF) algorithm to enhance the training of neural networks in distributed computing environments. Unlike traditional methods that rely on forward and backward passes, the FF algorithm employs a dual forward pass strategy, significantly diverging from the conventional backpropagation process. This novel method aligns more closely with the human brain's processing mechanisms, potentially offering a more efficient and biologically plausible approach to neural network training. Our research explores the implementation of the FF algorithm in distributed settings, focusing on its capability to facilitate parallel training of neural network layers. This parallelism aims to reduce training times and resource consumption, thereby addressing some of the inherent challenges in current distributed deep learning systems. By analyzing the effectiveness of the FF algorithm in distributed computing, we aim to demonstrate its potential as a transformative tool in distributed deep learning systems, offering improvements in training efficiency. The integration of the FF algorithm into distributed deep learning represents a significant step forward in the field, potentially revolutionizing the way neural networks are trained in distributed environments.
翻訳日:2024-04-21 20:04:31 公開日:2024-03-30
# 財務的Twitterメッセージの機会と予防を目的としたアスペクトベースの感情分析

Targeted aspect-based emotion analysis to detect opportunities and precaution in financial Twitter messages ( http://arxiv.org/abs/2404.08665v1 )

ライセンス: Link先を確認
Silvia García-Méndez, Francisco de Arriba-Pérez, Ana Barros-Vila, Francisco J. González-Castaño, (参考訳) Twitterが代表的な例であるマイクロブログプラットフォームは、市場スクリーニングや金融モデルのための貴重な情報ソースである。 それらの中で、ユーザは自発的に、投資に関する教育的な知識を含む関連情報を提供し、リアルタイムで株式市場の状態に反応し、しばしばこの状態に影響を与える。 我々は、資産に関する機会と予防を表現した金融・ソーシャルメディアメッセージのユーザー予測に興味を持っている。 我々は,異なる株式市場資産の財務的感情(肯定的,否定的な予測)を同一のつぶやきで個別に識別する,TABEA(Targeted Aspect-Based Emotion Analysis)システムを提案する。 自然言語処理(NLP)技術と機械学習ストリーミングアルゴリズムに基づいている。 本システムは、ツイートを解析し、より単純な宣言節に分割する選挙区解析モジュールと、テキスト、数値、カテゴリーの特徴をエンジニアリングし、その関連性に基づいて分析して選択するオフラインデータ処理モジュールと、ツイートをオンザフライで継続的に処理するストリーム分類モジュールとを備える。 ラベル付きデータセットの実験結果が我々のソリューションを裏付ける。 ターゲットの感情、財務的機会、そしてTwitterの予防のために90%以上の精度を達成している。 我々の知る限りでは、意思決定に実際的な関心があるにもかかわらず、文献における先行研究はこの問題に対処していないし、従来のNLPやTABEAに対するオンライン機械学習アプローチは知りません。

Microblogging platforms, of which Twitter is a representative example, are valuable information sources for market screening and financial models. In them, users voluntarily provide relevant information, including educated knowledge on investments, reacting to the state of the stock markets in real-time and, often, influencing this state. We are interested in the user forecasts in financial, social media messages expressing opportunities and precautions about assets. We propose a novel Targeted Aspect-Based Emotion Analysis (TABEA) system that can individually discern the financial emotions (positive and negative forecasts) on the different stock market assets in the same tweet (instead of making an overall guess about that whole tweet). It is based on Natural Language Processing (NLP) techniques and Machine Learning streaming algorithms. The system comprises a constituency parsing module for parsing the tweets and splitting them into simpler declarative clauses; an offline data processing module to engineer textual, numerical and categorical features and analyse and select them based on their relevance; and a stream classification module to continuously process tweets on-the-fly. Experimental results on a labelled data set endorse our solution. It achieves over 90% precision for the target emotions, financial opportunity, and precaution on Twitter. To the best of our knowledge, no prior work in the literature has addressed this problem despite its practical interest in decision-making, and we are not aware of any previous NLP nor online Machine Learning approaches to TABEA.
翻訳日:2024-04-21 20:04:31 公開日:2024-03-30
# CONCERT: 条件付きスパイク・アンド・スラブ前処理による共分散ロバスト局所情報伝達

CONCERT: Covariate-Elaborated Robust Local Information Transfer with Conditional Spike-and-Slab Prior ( http://arxiv.org/abs/2404.03764v1 )

ライセンス: Link先を確認
Ruqian Zhang, Yijiao Zhang, Annie Qu, Zhongyi Zhu, Juan Shen, (参考訳) 転送学習の人気は、有用な補助データセットから情報を借用できるという事実に起因している。 既存の統計伝達学習法は、通常、ソースデータとターゲットデータとのグローバルな類似度尺度を採用しており、ローカル情報のみを共有すると非効率になる可能性がある。 本稿では,高次元データ解析のためのロバストな局所情報伝達を実現するための新しいベイズ変換学習手法"CONCERT"を提案する。 情報伝達のためのターゲットパラメータとソースパラメータの共分散には,新しい条件付きスパイク・アンド・スラブが導入された。 共変量固有の先行要素を組み込むことで、局所的な類似性を特徴付けることができ、ソースを協調して動作させることで、目標の性能を向上させることができる。 既存の作業とは違い, CONCERT は1ステップの手順であり,変数の選択と情報転送を同時に行う。 可変選択整合性は、当社のCONCERTに対して確立されている。 アルゴリズムをスケーラブルにするため,実装を容易にするために変分ベイズフレームワークを採用した。 包括的実験と遺伝的データ解析は、既存の最先端移動学習法に対する CONCERT の有効性と利点を示している。 また,ConCERTを論理モデルに拡張し,他の手法よりも優れていることを示す数値的研究を行った。

The popularity of transfer learning stems from the fact that it can borrow information from useful auxiliary datasets. Existing statistical transfer learning methods usually adopt a global similarity measure between the source data and the target data, which may lead to inefficiency when only local information is shared. In this paper, we propose a novel Bayesian transfer learning method named "CONCERT" to allow robust local information transfer for high-dimensional data analysis. A novel conditional spike-and-slab prior is introduced in the joint distribution of target and source parameters for information transfer. By incorporating covariate-specific priors, we can characterize the local similarities and make the sources work collaboratively to help improve the performance on the target. Distinguished from existing work, CONCERT is a one-step procedure, which achieves variable selection and information transfer simultaneously. Variable selection consistency is established for our CONCERT. To make our algorithm scalable, we adopt the variational Bayes framework to facilitate implementation. Extensive experiments and a genetic data analysis demonstrate the validity and the advantage of CONCERT over existing cutting-edge transfer learning methods. We also extend our CONCERT to the logistical models with numerical studies showing its superiority over other methods.
翻訳日:2024-04-14 13:21:48 公開日:2024-03-30
# アプリケーションデブロ化のための静的解析と機械学習予測の組み合わせ

Combined Static Analysis and Machine Learning Prediction for Application Debloating ( http://arxiv.org/abs/2404.00196v1 )

ライセンス: Link先を確認
Chris Porter, Sharjeel Khan, Kangqi Ni, Santosh Pande, (参考訳) ソフトウェアデブロは、攻撃面を減らしてガジェットチェーンを壊すことによって、特定のコードの再利用攻撃を効果的に防ぐことができる。 静的解析に基づくアプローチにより、コールグラフの静的特性を活用することで、コールライトで到達可能な関数セットの削減が可能になる。 これは実行時のオーバーヘッドを低くするが、関数セットは保守的に計算され、還元に悪影響を及ぼす。 対照的に、機械学習(ML)に基づくアプローチは、はるかに精度が良く、関数セットを著しく削減できるため、攻撃面が大幅に改善される。 それでも、MLベースのアプローチでは誤予測が発生する。 これらはオーバーヘッドを引き起こし、さらに悪いことに、誤った予測と実際の攻撃を区別する明確な方法がない。 本研究では、MLベースの予測を実行時に組み込んだソフトウェアデブロジットアプローチがアプリケーション全体の現実的であり、最先端以上の攻撃面の大幅な削減を実現することができると論じる。 我々は,静的保証(PDSG)による予測的デブロット(Predictive Debloat)の枠組みを開発する。 PDSGは完全に健全で、アプリケーションのソースコードで動作する。 実行時に、呼び出し元から発せられる動的な呼び出し元セットを予測し、誤った予測を解決するために、コールチェーンの静的不変量に基づいた軽量な監査を使用する。 不変量はオフラインで推論し、誤った予測があるときに実行時に保持すると断言します。 我々の知る限り、SPEC CPU 2017の類似技術の中で最高のガジェット削減を実現し、ガジェット全体の82.5%を平均で削減した。 これは実行時に呼び出された総予測の3.8%のみの誤予測チェックをトリガーし、Datalogを活用して静的な呼び出し関係に適合する動的呼び出しシーケンスを検証する。 オーバーヘッドは8.9%であり、実際の配備には魅力的である。

Software debloating can effectively thwart certain code reuse attacks by reducing attack surfaces to break gadget chains. Approaches based on static analysis enable a reduced set of functions reachable at a callsite for execution by leveraging static properties of the callgraph. This achieves low runtime overhead, but the function set is conservatively computed, negatively affecting reduction. In contrast, approaches based on machine learning (ML) have much better precision and can sharply reduce function sets, leading to significant improvement in attack surface. Nevertheless, mispredictions occur in ML-based approaches. These cause overheads, and worse, there is no clear way to distinguish between mispredictions and actual attacks. In this work, we contend that a software debloating approach that incorporates ML-based predictions at runtime is realistic in a whole application setting, and that it can achieve significant attack surface reductions beyond the state of the art. We develop a framework, Predictive Debloat with Static Guarantees (PDSG). PDSG is fully sound and works on application source code. At runtime it predicts the dynamic callee set emanating from a callsite, and to resolve mispredictions, it employs a lightweight audit based on static invariants of call chains. We deduce the invariants offline and assert that they hold at runtime when there is a misprediction. To the best of our knowledge, it achieves the highest gadget reductions among similar techniques on SPEC CPU 2017, reducing 82.5% of the total gadgets on average. It triggers misprediction checks on only 3.8% of the total predictions invoked at runtime, and it leverages Datalog to verify dynamic call sequences conform to the static call relations. It has an overhead of 8.9%, which makes the scheme attractive for practical deployments.
翻訳日:2024-04-04 06:46:13 公開日:2024-03-30
# 分子三重項を用いたDicke量子電池の自己放電時間延長

Extending the self-discharge time of Dicke quantum batteries using molecular triplets ( http://arxiv.org/abs/2404.00198v1 )

ライセンス: Link先を確認
Daniel J. Tibben, Enrico Della Gaspera, Joel van Embden, Philipp Reineck, James Q. Quach, Francesco Campaioli, Daniel E. Gómez, (参考訳) 量子電池、すなわちエネルギー貯蔵のための量子システムは、潜在的にスケーラブルな充電電力密度のために関心を集めている。 ディックモデルに基づく量子電池の提案は、超吸収と呼ばれるキャビティ強化エネルギー伝達プロセスを可能にする有機マイクロキャビティを用いて検討されている。 しかし、これらの装置のエネルギー貯蔵寿命は、放射能の速い損失によって制限され、超放射能により悪化する。 ここでは分子三重項状態を用いてDicke量子電池のエネルギー貯蔵寿命を延長する有望なアプローチを示す。 本研究では, 活性吸収層が貯蔵層の分子三重項にエネルギーを伝達する多層マイクロキャビティについて検討し, 励起子-ポラリトン共鳴による2つの状態の同定を行った。 これらのメカニズムの1つは、三重項偏光子共鳴で5つのデバイスを作製し、特徴付けることで検証した。 我々は、このタイプのデバイスに対する潜在的最適化の展望を議論することで締めくくっている。

Quantum batteries, quantum systems for energy storage, have gained interest due to their potential scalable charging power density. A quantum battery proposal based on the Dicke model has been explored using organic microcavities, which enable a cavity-enhanced energy transfer process called superabsorption. However, energy storage lifetime in these devices is limited by fast radiative emission losses, worsened by superradiance. Here, we demonstrate a promising approach to extend the energy storage lifetime of Dicke quantum batteries using molecular triplet states. We examine a type of multi-layer microcavities where an active absorption layer transfers energy to the molecular triplets of a storage layer, identifying two regimes based on exciton-polariton resonances. We tested one of these mechanisms by fabricating and characterising five devices across a triplet-polariton resonance. We conclude by discussing potential optimisation outlooks for this class of devices.
翻訳日:2024-04-04 06:46:13 公開日:2024-03-30
# 量子ビット効率運動量空間マッピングによる反応ダイナミクス

Reaction dynamics with qubit-efficient momentum-space mapping ( http://arxiv.org/abs/2404.00202v1 )

ライセンス: Link先を確認
Ronen Weiss, Alessandro Baroni, Joseph Carlson, Ionel Stetcu, (参考訳) 量子多体力学の記述は、多くの自由度を必要とするため、古典的なコンピュータでは極めて難しい。 一方、量子状態の時間進化は、一元変換を効率的に行うように設計された量子コンピュータの自然な応用である。 本稿では,線形応答に支配される異なる反応を記述することに関連する応答関数の量子アルゴリズムについて検討する。 我々は、運動量空間基底状態を用いて効率的に実行できる格子上の量子ビット効率の写像を考える。 本稿では, 原子核二体系と電子散乱に関連する典型的な応答関数に着目し, このアプローチの利点と欠点を分析した。 本研究では, 地中準備, 経時変化, 必要な測定値について検討した。 信号の解釈に必要な回路深さとハードウェアノイズレベルについて検討する。

Description of quantum many-body dynamics is extremely challenging on classical computers, as it can involve many degrees of freedom. On the other hand, the time evolution of quantum states is a natural application for quantum computers, which are designed to efficiently perform unitary transformations. In this paper we study quantum algorithms for response functions, relevant for describing different reactions governed by linear response. We consider a qubit-efficient mapping on a lattice, which can be efficiently performed using momentum-space basis states. We analyze the advantages and disadvantages of this approach, focusing on the nuclear two-body system and a typical response function relevant for electron scattering as an example. We investigate ground-state preparation, controlled time evolution and the required measurements. We examine circuit depth and the hardware noise level required to interpret the signal.
翻訳日:2024-04-04 06:46:13 公開日:2024-03-30
# ロバスト自律飛行のためのPPOに基づくDRL自動調整型非線形PIDドローン制御器

A PPO-based DRL Auto-Tuning Nonlinear PID Drone Controller for Robust Autonomous Flights ( http://arxiv.org/abs/2404.00204v1 )

ライセンス: Link先を確認
Junyang Zhang, Cristian Emanuel Ocampo Rivera, Kyle Tyni, Steven Nguyen, (参考訳) 本プロジェクトは,従来の線形積分導関数(PID)コントローラの代替として,非線形ディープ強化学習(DRL)エージェントを実装することで,ドローンの飛行制御に革命をもたらすことを目的としている。 主な目的は、ドローンを手動モードと自律モードの間でシームレスに移行し、応答性と安定性を高めることである。 我々はガゼボシミュレータ内でPPO強化学習戦略を利用してDRLエージェントを訓練する。 2万ドルの屋内Viconトラッキングシステムを追加することで、位置決め精度が1mmに向上し、自律飛行精度が大幅に向上する。 衝突のない最短軌道でドローンをナビゲートするために、3次元のA*経路プランナーを構築し、実際の飛行にうまく実装する。

This project aims to revolutionize drone flight control by implementing a nonlinear Deep Reinforcement Learning (DRL) agent as a replacement for traditional linear Proportional Integral Derivative (PID) controllers. The primary objective is to seamlessly transition drones between manual and autonomous modes, enhancing responsiveness and stability. We utilize the Proximal Policy Optimization (PPO) reinforcement learning strategy within the Gazebo simulator to train the DRL agent. Adding a $20,000 indoor Vicon tracking system offers <1mm positioning accuracy, which significantly improves autonomous flight precision. To navigate the drone in the shortest collision-free trajectory, we also build a 3 dimensional A* path planner and implement it into the real flight successfully.
翻訳日:2024-04-04 06:46:13 公開日:2024-03-30
# 言語モデルにおける概念的・曖昧な推論

Conceptual and Unbiased Reasoning in Language Models ( http://arxiv.org/abs/2404.00205v1 )

ライセンス: Link先を確認
Ben Zhou, Hongming Zhang, Sihao Chen, Dian Yu, Hongwei Wang, Baolin Peng, Dan Roth, Dong Yu, (参考訳) 概念的推論(概念的推論、抽象的、高レベルの視点で推論する能力)は、人間の認知における一般化の鍵となる。 しかし、概念推論を行う大規模言語モデルの能力について、限定的な研究がなされている。 本研究では,このギャップを埋め,抽象的な質問に対する概念的推論をモデルに強制し,検証可能な記号空間で解を生成する新しい概念化フレームワークを提案する。 このフレームワークを解析ツールとして使用することにより、既存の大規模言語モデルは、直接推論法と比較して、様々なベンチマークにおいて9%から28%の減少率で概念推論に不足していることを示す。 ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。 提案手法は,類似の推論経路で親しみやすい質問を生成し,モデルに自己補充を依頼することで,信頼に値する誘導信号を追加する2つの手法を提案する。 実験の結果,提案手法はモデルの概念的推論性能を8%から11%向上させ,帰納的バイアスに頼らないより堅牢な推論システムを実現する。

Conceptual reasoning, the ability to reason in abstract and high-level perspectives, is key to generalization in human cognition. However, limited study has been done on large language models' capability to perform conceptual reasoning. In this work, we bridge this gap and propose a novel conceptualization framework that forces models to perform conceptual reasoning on abstract questions and generate solutions in a verifiable symbolic space. Using this framework as an analytical tool, we show that existing large language models fall short on conceptual reasoning, dropping 9% to 28% on various benchmarks compared to direct inference methods. We then discuss how models can improve since high-level abstract reasoning is key to unbiased and generalizable decision-making. We propose two techniques to add trustworthy induction signals by generating familiar questions with similar underlying reasoning paths and asking models to perform self-refinement. Experiments show that our proposed techniques improve models' conceptual reasoning performance by 8% to 11%, achieving a more robust reasoning system that relies less on inductive biases.
翻訳日:2024-04-04 06:46:13 公開日:2024-03-30
# ヒューマンランゲージモデル協調のための因果推論

Causal Inference for Human-Language Model Collaboration ( http://arxiv.org/abs/2404.00207v1 )

ライセンス: Link先を確認
Bohan Zhang, Yixin Wang, Paramveer S. Dhillon, (参考訳) 本稿では,人間と言語モデル(LM)の協調的ダイナミクスについて考察する。 このようなシナリオにおけるLMとのプロダクティブエンゲージメントは、人間が編集やレスポンススタイルといった効果的なテキストベースのインタラクション戦略を、歴史的人間とLMのインタラクションから区別する必要がある。 この目的は本質的に因果的であり、反ファクト的な「What-if」質問によって推進される。人間が異なるテキスト編集/修正戦略を採用した場合、コラボレーションの結果はどのように変化するのか? この因果推論問題に答える上で重要な課題は、適切な因果推定を定式化することである:従来の平均治療効果(ATE)推定は、その高次元性のためにテキストベースの治療には適用できない。 この問題に対処するために、我々は、形式性の向上など、テキストを特定のスタイルに無限にシフトする平均的な影響を特徴付ける、新しい因果推定(Incrmental Stylistic Effect, ISE)を導入する。 ISEの非パラメトリック同定の条件を確立する。 そこで我々は,動的人間-LMコラボレーションにおける様々なインタラクション戦略のISEを推定するアルゴリズムCausalCollabを開発した。 3つの異なる人間とLMのコラボレーションシナリオに関する実証研究により、CausalCollabは、競合するベースラインの集合に対する共起を効果的に低減し、対実推定を大幅に改善することが明らかとなった。

In this paper, we examine the collaborative dynamics between humans and language models (LMs), where the interactions typically involve LMs proposing text segments and humans editing or responding to these proposals. Productive engagement with LMs in such scenarios necessitates that humans discern effective text-based interaction strategies, such as editing and response styles, from historical human-LM interactions. This objective is inherently causal, driven by the counterfactual `what-if' question: how would the outcome of collaboration change if humans employed a different text editing/refinement strategy? A key challenge in answering this causal inference question is formulating an appropriate causal estimand: the conventional average treatment effect (ATE) estimand is inapplicable to text-based treatments due to their high dimensionality. To address this concern, we introduce a new causal estimand -- Incremental Stylistic Effect (ISE) -- which characterizes the average impact of infinitesimally shifting a text towards a specific style, such as increasing formality. We establish the conditions for the non-parametric identification of ISE. Building on this, we develop CausalCollab, an algorithm designed to estimate the ISE of various interaction strategies in dynamic human-LM collaborations. Our empirical investigations across three distinct human-LM collaboration scenarios reveal that CausalCollab effectively reduces confounding and significantly improves counterfactual estimation over a set of competitive baselines.
翻訳日:2024-04-04 06:46:13 公開日:2024-03-30
# 離散的な自然進化戦略

Discrete Natural Evolution Strategies ( http://arxiv.org/abs/2404.00208v1 )

ライセンス: Link先を確認
Ahmad Ayaz Amin, (参考訳) 自然進化戦略(英: natural evolution strategy)は、連続パラメータ空間にうまく使われている近似階調ブラックボックスオプティマイザのクラスである。 本稿では、離散パラメータ空間に対するNESアルゴリズムを導出し、離散パラメータを含むタスクにおいてその効果を実証する。

Natural evolution strategies are a class of approximate-gradient black-box optimizers that have been successfully used for continuous parameter spaces. In this paper, we derive NES algorithms for discrete parameter spaces and demonstrate their effectiveness in tasks involving discrete parameters.
翻訳日:2024-04-04 06:46:13 公開日:2024-03-30
# EventGround: 事象中心の知識グラフのグラウンディングによるナラティブ推論

EventGround: Narrative Reasoning by Grounding to Eventuality-centric Knowledge Graphs ( http://arxiv.org/abs/2404.00209v1 )

ライセンス: Link先を確認
Cheng Jiayang, Lin Qiu, Chunkit Chan, Xin Liu, Yangqiu Song, Zheng Zhang, (参考訳) 物語的推論は、背景世界の豊富な知識を必要とするストーリーコンテキストにおける結果の理解に依存している。 このような知識を活用するために、既存のソリューションは2つのグループに分類することができる。 言語モデル(LM)と結果認識の目的を事前学習することで、最終的な知識を暗黙的にモデル化することに焦点を当てるものもある。 しかし、このアプローチは知識構造を分解し、解釈可能性に欠ける。 結果性に関する世界的知識を構造化された結果性中心知識グラフ(KG)に明示的に収集する者もいる。 しかし、これらの知識源を自由テキストに活用する研究は限られている。 本研究では,文脈化された物語推論のための自由文から結果中心のKGへの基底化問題に取り組むことを目的とした,EventGroundと呼ばれる初期包括的フレームワークを提案する。 この方向における2つの重要な問題、すなわちイベント表現とスパーシティ問題を特定する。 これらの問題に対処するために、単純で効果的な解析と部分的な情報抽出方法を提案する。 実験の結果,グラフニューラルネットワーク (GNN) や大規模言語モデル (LLM) を用いたグラフ推論モデルと組み合わせた場合,提案手法はベースラインモデルより一貫して優れていた。 基礎知識を取り入れた我々の枠組みは、解釈可能な証拠を提供しながら最先端のパフォーマンスを達成する。

Narrative reasoning relies on the understanding of eventualities in story contexts, which requires a wealth of background world knowledge. To help machines leverage such knowledge, existing solutions can be categorized into two groups. Some focus on implicitly modeling eventuality knowledge by pretraining language models (LMs) with eventuality-aware objectives. However, this approach breaks down knowledge structures and lacks interpretability. Others explicitly collect world knowledge of eventualities into structured eventuality-centric knowledge graphs (KGs). However, existing research on leveraging these knowledge sources for free-texts is limited. In this work, we propose an initial comprehensive framework called EventGround, which aims to tackle the problem of grounding free-texts to eventuality-centric KGs for contextualized narrative reasoning. We identify two critical problems in this direction: the event representation and sparsity problems. We provide simple yet effective parsing and partial information extraction methods to tackle these problems. Experimental results demonstrate that our approach consistently outperforms baseline models when combined with graph neural network (GNN) or large language model (LLM) based graph reasoning models. Our framework, incorporating grounded knowledge, achieves state-of-the-art performance while providing interpretable evidence.
翻訳日:2024-04-04 06:46:13 公開日:2024-03-30
# 大規模言語モデルを用いた多言語ランク付け

Multi-Conditional Ranking with Large Language Models ( http://arxiv.org/abs/2404.00211v1 )

ライセンス: Link先を確認
Pouya Pezeshkpour, Estevam Hruschka, (参考訳) 大規模言語モデル(LLM)を用いて項目をランク付けする手法は,レコメンデーションや検索システムにおいて一般的なアプローチとなっている。 通常、これらのシステムは、与えられたクエリに基づいて、大量のドキュメントを単調な順序で順序付けすることに焦点を当てる。 しかし、現実のシナリオは、比較的小さな項目のセットをランク付けするなど、異なる課題を呈することが多い。 本稿では,MCRank(MCRank)を導入したマルチ条件ランキングの課題を定義し,その課題について検討する。 MCRankを用いたLCMの解析は,項目数や条件が増加するにつれて性能が著しく低下することを示している。 この制限を克服するために,条件を抽出し,修正し,次に項目を反復的にランク付けする,分割された推論手法を提案する。 この分解的推論法によりLLMの性能は向上し,既存のLLMよりも12%向上した。 また, LLMの性能を様々な条件カテゴリーで詳細に解析し, 分解工程の有効性について検討する。 さらに,本手法をChain-of-Thoughtやエンコーダ型ランキングモデルといった既存手法と比較し,MCRタスクの優位性と複雑性を示す。 データセットとコードをリリースしました。

Utilizing large language models (LLMs) to rank a set of items has become a common approach in recommendation and retrieval systems. Typically, these systems focus on ordering a substantial number of documents in a monotonic order based on a given query. However, real-world scenarios often present a different challenge: ranking a comparatively smaller set of items, but according to a variety of diverse and occasionally conflicting conditions. In this paper, we define and explore the task of multi-conditional ranking by introducing MCRank, a benchmark tailored for assessing multi-conditional ranking across various item types and conditions. Our analysis of LLMs using MCRank indicates a significant decrease in performance as the number and complexity of items and conditions grow. To overcome this limitation, we propose a novel decomposed reasoning method, consisting of EXtracting and Sorting the conditions, and then Iterativly Ranking the items (EXSIR). Our extensive experiments show that this decomposed reasoning method enhances LLMs' performance significantly, achieving up to a 12% improvement over existing LLMs. We also provide a detailed analysis of LLMs performance across various condition categories, and examine the effectiveness of decomposition step. Furthermore, we compare our method with existing approaches such as Chain-of-Thought and an encoder-type ranking model, demonstrating the superiority of our approach and complexity of MCR task. We released our dataset and code.
翻訳日:2024-04-04 06:46:13 公開日:2024-03-30
# 教師付き微調整による大規模言語モデルへの新しい知識注入

Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning ( http://arxiv.org/abs/2404.00213v1 )

ライセンス: Link先を確認
Nick Mecklenburg, Yiyou Lin, Xiaoxiao Li, Daniel Holstein, Leonardo Nunes, Sara Malvar, Bruno Silva, Ranveer Chandra, Vijay Aski, Pavan Kumar Reddy Yannam, Tolga Aktas, (参考訳) 近年,Large Language Models (LLMs) は,多種多様なアプリケーションにまたがる貴重な資産であることが証明された。 しかし、新しいドメイン外の知識を取り入れるためにこれらのモデルを適用することは、特にモデルの知識が切り離された後に発生する事実や出来事にとって、依然として課題である。 本稿では,近年のスポーツイベントにおける知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。 さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。 GPT-4の実験では、トークンベースのスケーリングはQ&A精度の向上につながるが、新しい知識の均一なカバレッジを提供することはできない。 一方、ファクトベースのスケーリングは、すべての事実をカバーできるような、より体系的なアプローチを提供する。 本稿では,SFTによるより効果的な知識取り込みを実現する新しいデータセット生成プロセスを提案する。 本研究は, LLMに対するドメイン適応の理解に寄与し, 特定の知識領域におけるLLM応答の現実性を高める上でのSFTの可能性を明らかにする。

In recent years, Large Language Models (LLMs) have shown remarkable performance in generating human-like text, proving to be a valuable asset across various applications. However, adapting these models to incorporate new, out-of-domain knowledge remains a challenge, particularly for facts and events that occur after the model's knowledge cutoff date. This paper investigates the effectiveness of Supervised Fine-Tuning (SFT) as a method for knowledge injection in LLMs, specifically focusing on the domain of recent sporting events. We compare different dataset generation strategies -- token-based and fact-based scaling -- to create training data that helps the model learn new information. Our experiments on GPT-4 demonstrate that while token-based scaling can lead to improvements in Q&A accuracy, it may not provide uniform coverage of new knowledge. Fact-based scaling, on the other hand, offers a more systematic approach to ensure even coverage across all facts. We present a novel dataset generation process that leads to more effective knowledge ingestion through SFT, and our results show considerable performance improvements in Q&A tasks related to out-of-domain knowledge. This study contributes to the understanding of domain adaptation for LLMs and highlights the potential of SFT in enhancing the factuality of LLM responses in specific knowledge domains.
翻訳日:2024-04-04 06:46:13 公開日:2024-03-30
# LLM用フリーランチはファクチュアリティデコーディングか?知識編集ベンチマークによる評価

Is Factuality Decoding a Free Lunch for LLMs? Evaluation on Knowledge Editing Benchmark ( http://arxiv.org/abs/2404.00216v1 )

ライセンス: Link先を確認
Baolong Bi, Shenghua Liu, Yiwei Wang, Lingrui Mei, Xueqi Cheng, (参考訳) 大規模言語モデル(LLM)の急速な開発により、より人間的な方法で現実的な知識を伝達することができる。 事実の復号化によるLLMの修正により, 事実の幻覚を減らそうとする努力が盛んに行われている。 しかし、モデルが既知の事実を過度に確信させるため、知識更新を妨げるリスクもある。 本研究では,まず,現在の実写復号法を再検討し,実写精度を高める上での有効性を検証した。 その後、知識編集ベンチマークにおいて、いくつかの強い事実性復号法についてさらなる評価を行う。 これらの復号法は、元々の復号法に比べてラマ2モデルの性能を著しく低下させ、最大の減算は81.3\%であった。 このことは、既存の復号法が知識編集の柔軟性を維持することの重要性を見落としているため、事実の幻覚を完全には解決できないことを示している。 そこで本研究では,事実整合性の研究を同時に,知識編集の有効性に着目することが示唆された。

The rapid development of large language models (LLMs) enables them to convey factual knowledge in a more human-like fashion. Extensive efforts have been made to reduce factual hallucinations by modifying LLMs with factuality decoding. However, they also pose risks of hindering knowledge updates, as they make models overly confident in known facts. In this work, we first revisite the current factuality decoding methods and verified their effectiveness in enhancing factual accuracy. Subsequently, we conduct further evaluation of several strong factuality decoding methods on the knowledge editing benchmark. All these decoding methods significantly diminish the performance of llama2 models compared to their original decoding, with the largest decrease being a staggering 81.3\%. This further indicates that the current existing decoding methods still cannot perfectly address the factual hallucinations, as they overlook the importance of preserving the flexibility for knowledge editing. Therefore, our work suggests that research into factual alignment should simultaneously focus on the effectiveness of knowledge editing.
翻訳日:2024-04-04 06:46:13 公開日:2024-03-30
# Rationale-based Opinion Summarization

Rationale-based Opinion Summarization ( http://arxiv.org/abs/2404.00217v1 )

ライセンス: Link先を確認
Haoyuan Li, Snigdha Chaturvedi, (参考訳) オピニオン要約は、大規模なレビューの一般的な意見を示す簡潔な要約を生成することを目的としている。 しかし、これらの要約はあまりにも一般的であり、サポートの詳細が欠けている。 これらの課題に対処するために、レビューを要約する新しいパラダイム、合理的な意見の要約を提案する。 Rationaleベースの意見要約は、代表的意見と1つ以上の対応する論理を出力する。 有理数抽出には, 関連性, 特異性, 人気度, 多様性の4つの望ましい特性を定義し, 有理数抽出のためのギブスサンプリング方式を提案する。 全体として,オピニオン・エクストラクタ(代表的意見の抽出)とラショナル・エクストラクタ(対応する有理性の抽出)の2つの構成要素を有する非教師なし抽出システムであるationを提案する。 提案手法により抽出された有理性は, 従来の要約よりも有用であることを示すために, 自動的, 人的評価を行う。 私たちの作業の実装はhttps://github.com/leehaoyuan/RATIONで公開されています。

Opinion summarization aims to generate concise summaries that present popular opinions of a large group of reviews. However, these summaries can be too generic and lack supporting details. To address these issues, we propose a new paradigm for summarizing reviews, rationale-based opinion summarization. Rationale-based opinion summaries output the representative opinions as well as one or more corresponding rationales. To extract good rationales, we define four desirable properties: relatedness, specificity, popularity, and diversity and present a Gibbs-sampling-based method to extract rationales. Overall, we propose RATION, an unsupervised extractive system that has two components: an Opinion Extractor (to extract representative opinions) and Rationales Extractor (to extract corresponding rationales). We conduct automatic and human evaluations to show that rationales extracted by RATION have the proposed properties and its summaries are more useful than conventional summaries. The implementation of our work is available at https://github.com/leehaoyuan/RATION.
翻訳日:2024-04-04 06:46:13 公開日:2024-03-30
# 関数エッジネットワークモデリング

Functional-Edged Network Modeling ( http://arxiv.org/abs/2404.00218v1 )

ライセンス: Link先を確認
Haijie Xu, Chen Zhang, (参考訳) ノードを関数とみなし、異なる関数間の関係を表現するためにエッジを使用する既存の作業とは対照的である。 エッジが関数データであるネットワークモデリングを対象とし、隣接行列を機能的隣接テンソルに変換し、関数表現専用の追加次元を導入する。 タッカー関数分解は機能的隣接テンソルに使われ、ノード間のコミュニティをさらに考慮するために、基底行列を対称的に正則化する。 さらに, 関数エッジの不規則な観測に対処するため, モデル推論を行い, テンソル完備化問題を解く。 リーマン共役勾配降下法により最適化される。 これらに加えて、関数型エッジネットワークモデルの望ましい性質を示すために、いくつかの定理も導出する。 最後に,本モデルの有効性を,香港とシンガポールのシミュレーションデータと実際のメトロシステムデータを用いて評価した。

Contrasts with existing works which all consider nodes as functions and use edges to represent the relationships between different functions. We target at network modeling whose edges are functional data and transform the adjacency matrix into a functional adjacency tensor, introducing an additional dimension dedicated to function representation. Tucker functional decomposition is used for the functional adjacency tensor, and to further consider the community between nodes, we regularize the basis matrices to be symmetrical. Furthermore, to deal with irregular observations of the functional edges, we conduct model inference to solve a tensor completion problem. It is optimized by a Riemann conjugate gradient descent method. Besides these, we also derive several theorems to show the desirable properties of the functional edged network model. Finally, we evaluate the efficacy of our proposed model using simulation data and real metro system data from Hong Kong and Singapore.
翻訳日:2024-04-04 06:46:13 公開日:2024-03-30
# 上部信頼領域を経由した自己相関データの部分観測可能な逐次変化点検出

Partially-Observable Sequential Change-Point Detection for Autocorrelated Data via Upper Confidence Region ( http://arxiv.org/abs/2404.00220v1 )

ライセンス: Link先を確認
Haijie Xu, Xiaochen Xian, Chen Zhang, Kaibo Liu, (参考訳) 多変量自己相関データの逐次変化点検出は、実際には非常に一般的な問題である。 しかし、センシングリソースが限られている場合、各センシング時点において多変量系の変数のサブセットしか観測できない。 これにより、部分的に観測可能なマルチセンサシーケンシャルな変化点検出の問題を提起する。 そこで本稿では,状態空間モデル(AUCRSS)を用いたアダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・ア 状態空間モデル(SSM)を介して多変量時系列をモデル化し、適応サンプリングポリシーを用いて効率的な変化点検出と局所化を行う。 SSMのオンライン推論のための部分観測可能なカルマンフィルタアルゴリズムを開発し、一般化された確率比テストに基づく変化点検出スキームを開発する。 その検出能力が適応サンプリング戦略とどのように関係するかを解析する。 一方、検出パワーを報酬として扱うことにより、オンライン組合せ多重武装バンドイット(CMAB)問題との接続を定式化し、適応型サンプリングポリシー設計のために適応型上位信頼領域アルゴリズムを提案する。 漸近平均検出遅延の理論的解析を行い、合成データと実世界のデータを用いた徹底的な数値計算を行い、本手法の有効性を実証した。

Sequential change point detection for multivariate autocorrelated data is a very common problem in practice. However, when the sensing resources are limited, only a subset of variables from the multivariate system can be observed at each sensing time point. This raises the problem of partially observable multi-sensor sequential change point detection. For it, we propose a detection scheme called adaptive upper confidence region with state space model (AUCRSS). It models multivariate time series via a state space model (SSM), and uses an adaptive sampling policy for efficient change point detection and localization. A partially-observable Kalman filter algorithm is developed for online inference of SSM, and accordingly, a change point detection scheme based on a generalized likelihood ratio test is developed. How its detection power relates to the adaptive sampling strategy is analyzed. Meanwhile, by treating the detection power as a reward, its connection with the online combinatorial multi-armed bandit (CMAB) problem is formulated and an adaptive upper confidence region algorithm is proposed for adaptive sampling policy design. Theoretical analysis of the asymptotic average detection delay is performed, and thorough numerical studies with synthetic data and real-world data are conducted to demonstrate the effectiveness of our method.
翻訳日:2024-04-04 06:46:13 公開日:2024-03-30
# 観測データを用いた最適動的処理規則のロバスト学習

Robust Learning for Optimal Dynamic Treatment Regimes with Observational Data ( http://arxiv.org/abs/2404.00221v1 )

ライセンス: Link先を確認
Shosei Sakaguchi, (参考訳) 多くの公的政策や医療介入は、治療の割り当てにおけるダイナミクスに関係しており、治療は複数の段階にわたって同一個人に順次割り当てられ、各段階における治療の効果は通常、前処理の歴史と関連する特徴に関して異質である。 本研究では,各段階の個人に対する最適な治療課題を個人の歴史に基づいて導く,最適な動的治療体制(DTR)の統計的学習について検討する。 逐次的無知を前提とした観測データを用いて最適なDTRを学習するためのステップワイド・ダブル・ロバスト手法を提案する。 提案手法は,各段階のポリシーの値の逆確率重み付け推定器を構築するために,各段階の確率スコアと行動値関数(Q関数)の推定器を組み合わせることによって,逐次的処理代入問題を解決する。 このアプローチは、各ステージの確率スコアまたはQ関数が一貫して推定される場合、常に最適DTRを推定する。 さらに、結果のDTRは、ニュアンスパラメータの推定器の収束率に関する穏やかな条件下で、最適収束率$n^{-1/2}$の後悔を達成できる。

Many public policies and medical interventions involve dynamics in their treatment assignments, where treatments are sequentially assigned to the same individuals across multiple stages, and the effect of treatment at each stage is usually heterogeneous with respect to the history of prior treatments and associated characteristics. We study statistical learning of optimal dynamic treatment regimes (DTRs) that guide the optimal treatment assignment for each individual at each stage based on the individual's history. We propose a step-wise doubly-robust approach to learn the optimal DTR using observational data under the assumption of sequential ignorability. The approach solves the sequential treatment assignment problem through backward induction, where, at each step, we combine estimators of propensity scores and action-value functions (Q-functions) to construct augmented inverse probability weighting estimators of values of policies for each stage. The approach consistently estimates the optimal DTR if either a propensity score or Q-function for each stage is consistently estimated. Furthermore, the resulting DTR can achieve the optimal convergence rate $n^{-1/2}$ of regret under mild conditions on the convergence rate for estimators of the nuisance parameters.
翻訳日:2024-04-04 06:46:13 公開日:2024-03-30
# コントラスト学習による科学論文の文レベル埋め込みの分類とクラスタリング

Classification and Clustering of Sentence-Level Embeddings of Scientific Articles Generated by Contrastive Learning ( http://arxiv.org/abs/2404.00224v1 )

ライセンス: Link先を確認
Gustavo Bartz Guedes, Ana Estela Antunes da Silva, (参考訳) 科学論文は、研究の側面を記述するセクションにまとめられた長いテキスト文書である。 利用可能な記事の数が増えたため、科学的生産の分析は徐々に困難になっている。 本手法は, 背景, 目的, 方法, 結果, 結論といったラベルを考慮し, 科学的論文から文レベルの埋め込みを生成するための微調整変換言語モデルで構成された。 対照的な学習で3つのデータセットでモデルをトレーニングしました。 2つのデータセットは、コンピュータ科学と医療分野における記事の抽象概念からのものである。 また,医療記事の全文から抽出した文の新たなデータセットである PMC-Sents-FULL についても紹介する。 クラスタリングおよび分類タスクにおける微調整モデルとベースラインモデルを比較し、我々のアプローチを評価する。 クラスタリング合意値の平均は5倍であった。 分類では,F1-microの30.73\%の平均的な改善が見られた。 比較学習と下流タスクへの埋め込みを併用した微調整文変換器は, 学術論文の文分類において, 実現可能なアプローチであることを示す。 実験コードはGitHubで公開しています。

Scientific articles are long text documents organized into sections, each describing aspects of the research. Analyzing scientific production has become progressively challenging due to the increase in the number of available articles. Within this scenario, our approach consisted of fine-tuning transformer language models to generate sentence-level embeddings from scientific articles, considering the following labels: background, objective, methods, results, and conclusion. We trained our models on three datasets with contrastive learning. Two datasets are from the article's abstracts in the computer science and medical domains. Also, we introduce PMC-Sents-FULL, a novel dataset of sentences extracted from the full texts of medical articles. We compare the fine-tuned and baseline models in clustering and classification tasks to evaluate our approach. On average, clustering agreement measures values were five times higher. For the classification measures, in the best-case scenario, we had an average improvement in F1-micro of 30.73\%. Results show that fine-tuning sentence transformers with contrastive learning and using the generated embeddings in downstream tasks is a feasible approach to sentence classification in scientific articles. Our experiment codes are available on GitHub.
翻訳日:2024-04-04 06:36:22 公開日:2024-03-30
# 基礎モデルとそれを超える不均一なコントラスト学習

Heterogeneous Contrastive Learning for Foundation Models and Beyond ( http://arxiv.org/abs/2404.00225v1 )

ライセンス: Link先を確認
Lecheng Zheng, Baoyu Jing, Zihao Li, Hanghang Tong, Jingrui He, (参考訳) ビッグデータと人工知能の時代において、新しいパラダイムは、大規模な異種データをモデル化するために、対照的な自己教師付き学習を活用することである。 多くの既存の基礎モデルは、ラベル情報に頼らずにコンパクトで高品質な表現を学習することで、対照的な自己教師付き学習の一般化能力の恩恵を受ける。 自然言語処理やコンピュータビジョンなど,基礎モデルの爆発的な進歩の中で,基礎モデルの異種コントラスト学習の徹底的な調査が急務である。 本調査は,基礎モデルにおける異種コントラスト学習の現状を批判的に評価し,オープン課題とコントラスト学習の今後の動向を明らかにする。 特に、近年の高度なコントラスト学習に基づく手法が、ビューの不均一性や、マルチビュー基礎モデルの訓練と微調整にコントラスト学習がどのように適用されているかを示す。 そして、タスク前処理や下流タスクを含むタスクの不均一性に対するコントラスト学習手法に移行し、異なる目的のために異なるタスクがコントラスト学習損失とどのように組み合わせられているかを示す。 最後に、オープンな課題について議論し、対照的な学習の今後の方向性に光を当てることで、この調査を締めくくります。

In the era of big data and Artificial Intelligence, an emerging paradigm is to utilize contrastive self-supervised learning to model large-scale heterogeneous data. Many existing foundation models benefit from the generalization capability of contrastive self-supervised learning by learning compact and high-quality representations without relying on any label information. Amidst the explosive advancements in foundation models across multiple domains, including natural language processing and computer vision, a thorough survey on heterogeneous contrastive learning for the foundation model is urgently needed. In response, this survey critically evaluates the current landscape of heterogeneous contrastive learning for foundation models, highlighting the open challenges and future trends of contrastive learning. In particular, we first present how the recent advanced contrastive learning-based methods deal with view heterogeneity and how contrastive learning is applied to train and fine-tune the multi-view foundation models. Then, we move to contrastive learning methods for task heterogeneity, including pretraining tasks and downstream tasks, and show how different tasks are combined with contrastive learning loss for different purposes. Finally, we conclude this survey by discussing the open challenges and shedding light on the future directions of contrastive learning.
翻訳日:2024-04-04 06:36:22 公開日:2024-03-30
# 必要な設計:マルチモーダル事前学習のための視覚的質問応答の利用

Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training ( http://arxiv.org/abs/2404.00226v1 )

ライセンス: Link先を確認
Tongkun Su, Jun Li, Xi Zhang, Haibo Jin, Hao Chen, Qiong Wang, Faqin Lv, Baoliang Zhao, Yin Hu, (参考訳) マルチモーダル・プレトレーニング(Multimodal pre-training)は、医療分野におけるその可能性を示す。 しかし、多くの事前訓練タスクは、臨床医からの追加のアノテーションを必要としており、そのほとんどは、異なる病理の望ましい特徴を学ぶために、モデルを明示的に導くことに失敗している。 我々の知識を最大限に活用するために、我々はまず視覚質問応答(VQA)をマルチモーダル・プレトレーニングに利用し、対象とする病理機能に焦点を当てたフレームワークをガイドする。 本研究では,医学報告における記述を活用して,異なる疾患に関連する多粒質質問応答ペアを設計し,専門家の注釈を余分に必要とせず,事前学習の枠組みを支援する。 また,視覚的特徴をテキスト領域に近い準テキスト空間に変換するためのモジュールである準テキスト特徴変換器を用いた新しい事前学習フレームワークを提案する。 これは視覚言語ギャップを狭め、モダリティアライメントを促進する。 私たちのフレームワークは、レポート生成、分類、セグメンテーション、および5つのデータセットにわたる検出の4つのダウンストリームタスクに適用されます。 大規模な実験は、他の最先端手法と比較して、我々のフレームワークの優位性を実証している。 私たちのコードは受け入れ次第解放されます。

Multimodal pre-training demonstrates its potential in the medical domain, which learns medical visual representations from paired medical reports. However, many pre-training tasks require extra annotations from clinicians, and most of them fail to explicitly guide the model to learn the desired features of different pathologies. To the best of our knowledge, we are the first to utilize Visual Question Answering (VQA) for multimodal pre-training to guide the framework focusing on targeted pathological features. In this work, we leverage descriptions in medical reports to design multi-granular question-answer pairs associated with different diseases, which assist the framework in pre-training without requiring extra annotations from experts. We also propose a novel pre-training framework with a quasi-textual feature transformer, a module designed to transform visual features into a quasi-textual space closer to the textual domain via a contrastive learning strategy. This narrows the vision-language gap and facilitates modality alignment. Our framework is applied to four downstream tasks: report generation, classification, segmentation, and detection across five datasets. Extensive experiments demonstrate the superiority of our framework compared to other state-of-the-art methods. Our code will be released upon acceptance.
翻訳日:2024-04-04 06:36:22 公開日:2024-03-30
# インフラストラクチャをコードとして生成する大規模言語モデルの利用に関する調査

A Survey of using Large Language Models for Generating Infrastructure as Code ( http://arxiv.org/abs/2404.00227v1 )

ライセンス: Link先を確認
Kalahasti Ganesh Srivatsa, Sabyasachi Mukhopadhyay, Ganesh Katrapati, Manish Shrivastava, (参考訳) インフラストラクチャ・アズ・コード(Infrastructure as Code, IaC)は革命的なアプローチであり、業界で大きな注目を集めています。 IaCは、自動化、環境間の一貫性、再現性、バージョン管理、エラーの低減、スケーラビリティの向上を可能にすることで、マシン可読コードを使用してITインフラストラクチャを管理し、プロビジョニングする。 しかし、IaCオーケストレーションは多くの場合、特別なスキルと多くの手作業を必要とする面倒な作業です。 IaCの自動化は産業の現在の状況において必要であり、本調査では、この問題に対処するためのLarge Language Models (LLM)の適用可能性について検討する。 LLMは、大きなニューラルネットワークベースのモデルであり、言語処理能力を示し、幅広い範囲で幅広い命令に従うことができることを示している。 最近では、コード理解および生成タスクにもうまく適応しており、IaC設定の自動生成には有望な選択となっている。 この調査では、IaCの詳細、異なるプラットフォームでのIaCの利用、それらの課題、コード生成の側面におけるLLM、IaCにおけるLLMの重要性、そして我々の実験について調べる。 最後に、この領域における課題を提示し、今後の研究のスコープを強調して結論を下す。

Infrastructure as Code (IaC) is a revolutionary approach which has gained significant prominence in the Industry. IaC manages and provisions IT infrastructure using machine-readable code by enabling automation, consistency across the environments, reproducibility, version control, error reduction and enhancement in scalability. However, IaC orchestration is often a painstaking effort which requires specialised skills as well as a lot of manual effort. Automation of IaC is a necessity in the present conditions of the Industry and in this survey, we study the feasibility of applying Large Language Models (LLM) to address this problem. LLMs are large neural network-based models which have demonstrated significant language processing abilities and shown to be capable of following a range of instructions within a broad scope. Recently, they have also been adapted for code understanding and generation tasks successfully, which makes them a promising choice for the automatic generation of IaC configurations. In this survey, we delve into the details of IaC, usage of IaC in different platforms, their challenges, LLMs in terms of code-generation aspects and the importance of LLMs in IaC along with our own experiments. Finally, we conclude by presenting the challenges in this area and highlighting the scope for future research.
翻訳日:2024-04-04 06:36:22 公開日:2024-03-30
# 潜伏拡散空間における潜伏透かし:潜伏拡散空間における透かしの注入と検出

Latent Watermark: Inject and Detect Watermarks in Latent Diffusion Space ( http://arxiv.org/abs/2404.00230v1 )

ライセンス: Link先を確認
Zheling Meng, Bo Peng, Jing Dong, (参考訳) ウォーターマーキング(英: Watermarking)は、潜伏拡散モデルによって生成された画像を積極的に識別し、帰属するツールである。 既存の手法は、透かしの堅牢性と画質のジレンマに直面している。 このジレンマの理由は、透かし検出が画素空間で行われており、画像の品質と透かしの堅牢性の間に本質的なつながりが示唆されているからである。 本稿では,潜伏空間における透かしの注入と検出を効果的に行うことを強調し,段階的学習戦略を備えた潜伏透かし(LW)を提案する。 実験によると、最近提案されたStegaStamp、StableSignature、RoSteALS、TreeRingといった手法と比較して、LWは堅牢性だけでなく、画質も優れている。 64ビットメッセージを注入すると、LWは100%近い識別性能と、9つの単一攻撃シナリオと1つの全攻撃シナリオの97%以上の属性パフォーマンスを達成することができる。 私たちのコードはGitHubで公開されます。

Watermarking is a tool for actively identifying and attributing the images generated by latent diffusion models. Existing methods face the dilemma of watermark robustness and image quality. The reason for this dilemma is that watermark detection is performed in pixel space, implying an intrinsic link between image quality and watermark robustness. In this paper, we highlight that an effective solution to the problem is to both inject and detect watermarks in latent space, and propose Latent Watermark (LW) with a progressive training strategy. Experiments show that compared to the recently proposed methods such as StegaStamp, StableSignature, RoSteALS and TreeRing, LW not only surpasses them in terms of robustness but also offers superior image quality. When we inject 64-bit messages, LW can achieve an identification performance close to 100% and an attribution performance above 97% under 9 single-attack scenarios and one all-attack scenario. Our code will be available on GitHub.
翻訳日:2024-04-04 06:36:22 公開日:2024-03-30
# MR画像からの腰椎椎間板のアーチファクトフリー幾何再構成のための注意型形状変形ネットワーク

Attention-based Shape-Deformation Networks for Artifact-Free Geometry Reconstruction of Lumbar Spine from MR Images ( http://arxiv.org/abs/2404.00231v1 )

ライセンス: Link先を確認
Linchen Qian, Jiasong Chen, Linhai Ma, Timur Urakov, Weiyong Gu, Liang Liang, (参考訳) 腰椎椎間板の進行的構造と損傷である腰椎椎間板変性は腰痛に重要な役割を担っていると考えられている。 MR画像からの腰椎形状自動再構築により, 医療パラメータの迅速測定により, 腰部状態の評価が可能となり, 適切な治療が期待できる。 既存の画像セグメンテーションに基づく技術は、しばしば医療パラメータ測定には適さない誤ったセグメントや非構造化点雲を生成する。 本研究では, 腰椎の輪郭を高空間精度で再構成し, 患者間のメッシュ対応を図り, 誤り推定のためのTransDeformerの変種を提案する。 特に,画像のセグメンテーションを必要とせずに形状テンプレート上の点の変位を予測するために,画像特徴とトークン化された輪郭特徴を統合した新しいアテンション式を考案した。 変形テンプレートは、入力画像中の腰椎の形状を明らかにする。 テンプレートの初期化に関してモデルロバスト性を高めるための多段階トレーニング戦略を開発する。 実験結果から,TransDeformerはアーチファクトフリーな幾何出力を生成し,その変種は再構成された幾何の誤差を予測する。 私たちのコードはhttps://github.com/linchenq/TransDeformer-Meshで利用可能です。

Lumbar disc degeneration, a progressive structural wear and tear of lumbar intervertebral disc, is regarded as an essential role on low back pain, a significant global health concern. Automated lumbar spine geometry reconstruction from MR images will enable fast measurement of medical parameters to evaluate the lumbar status, in order to determine a suitable treatment. Existing image segmentation-based techniques often generate erroneous segments or unstructured point clouds, unsuitable for medical parameter measurement. In this work, we present TransDeformer: a novel attention-based deep learning approach that reconstructs the contours of the lumbar spine with high spatial accuracy and mesh correspondence across patients, and we also present a variant of TransDeformer for error estimation. Specially, we devise new attention modules with a new attention formula, which integrates image features and tokenized contour features to predict the displacements of the points on a shape template without the need for image segmentation. The deformed template reveals the lumbar spine geometry in the input image. We develop a multi-stage training strategy to enhance model robustness with respect to template initialization. Experiment results show that our TransDeformer generates artifact-free geometry outputs, and its variant predicts the error of a reconstructed geometry. Our code is available at https://github.com/linchenq/TransDeformer-Mesh.
翻訳日:2024-04-04 06:36:22 公開日:2024-03-30
# メタラーニングによるデータ駆動モデル予測制御のための効率的な自動チューニング

Efficient Automatic Tuning for Data-driven Model Predictive Control via Meta-Learning ( http://arxiv.org/abs/2404.00232v1 )

ライセンス: Link先を確認
Baoyu Li, William Edwards, Kris Hauser, (参考訳) AutoMPCは、データ駆動モデル予測制御の自動化と最適化を行うPythonパッケージである。 しかし、純粋なベイズ最適化(BO)を用いて大規模な探索空間を探索する場合、計算コストが高く不安定である。 これらの課題に対処するため,本論文では,BOを温めることでAutoMPCの効率性と安定性を向上させる,Portfolioと呼ばれるメタ学習手法を提案する。 Portfolioは、以前のタスクからさまざまな設定セットを使用してBOの初期設計を最適化し、初期設定をランダムに選択せずに修正することでチューニングプロセスを安定化する。 実験の結果,11個の非線形制御シミュレーションベンチマークと1個の水中ソフトロボットデータセットを用いて,限られた計算資源内でのAutoMPCの望ましい解を見つける上で,Portfolioは純粋なBOよりも優れていた。

AutoMPC is a Python package that automates and optimizes data-driven model predictive control. However, it can be computationally expensive and unstable when exploring large search spaces using pure Bayesian Optimization (BO). To address these issues, this paper proposes to employ a meta-learning approach called Portfolio that improves AutoMPC's efficiency and stability by warmstarting BO. Portfolio optimizes initial designs for BO using a diverse set of configurations from previous tasks and stabilizes the tuning process by fixing initial configurations instead of selecting them randomly. Experimental results demonstrate that Portfolio outperforms the pure BO in finding desirable solutions for AutoMPC within limited computational resources on 11 nonlinear control simulation benchmarks and 1 physical underwater soft robot dataset.
翻訳日:2024-04-04 06:36:22 公開日:2024-03-30
# テキスト・ビデオ生成のためのグリッド拡散モデル

Grid Diffusion Models for Text-to-Video Generation ( http://arxiv.org/abs/2404.00234v1 )

ライセンス: Link先を確認
Taegyeong Lee, Soyeong Kwon, Taehwan Kim, (参考訳) 拡散モデルの最近の進歩は、テキスト・画像生成を大幅に改善した。 しかし、より大きなデータセットと高い計算コストのために、テキストからビデオを生成することは、テキストから画像を生成するよりも難しい作業である。 既存のビデオ生成手法の多くは、時間次元を考慮した3D U-Netアーキテクチャまたは自己回帰生成を使用する。 これらの手法は大規模なデータセットを必要とし、テキスト・ツー・イメージ生成と比較して計算コストに制限がある。 これらの課題に対処するために、アーキテクチャの時間次元と大規模なテキスト-ビデオペア化データセットを使わずに、テキスト-ビデオ生成のための単純かつ効果的な新しいグリッド拡散を提案する。 我々は,映像をグリッド画像として表現することにより,フレーム数に関係なく,一定量のGPUメモリを用いて高品質な映像を生成することができる。 さらに,本手法は映像の寸法を画像の寸法に還元するので,テキスト誘導による画像操作など,様々な画像ベースの手法をビデオに適用することができる。 提案手法は,実世界の映像生成におけるモデルの有効性を実証し,定量評価と定性評価の両面で既存手法より優れていることを示す。

Recent advances in the diffusion models have significantly improved text-to-image generation. However, generating videos from text is a more challenging task than generating images from text, due to the much larger dataset and higher computational cost required. Most existing video generation methods use either a 3D U-Net architecture that considers the temporal dimension or autoregressive generation. These methods require large datasets and are limited in terms of computational costs compared to text-to-image generation. To tackle these challenges, we propose a simple but effective novel grid diffusion for text-to-video generation without temporal dimension in architecture and a large text-video paired dataset. We can generate a high-quality video using a fixed amount of GPU memory regardless of the number of frames by representing the video as a grid image. Additionally, since our method reduces the dimensions of the video to the dimensions of the image, various image-based methods can be applied to videos, such as text-guided video manipulation from image manipulation. Our proposed method outperforms the existing methods in both quantitative and qualitative evaluations, demonstrating the suitability of our model for real-world video generation.
翻訳日:2024-04-04 06:36:22 公開日:2024-03-30
# デジタルワールドにおける情報セキュリティとプライバシ:いくつかのトピック

Information Security and Privacy in the Digital World: Some Selected Topics ( http://arxiv.org/abs/2404.00235v1 )

ライセンス: Link先を確認
Jaydip Sen, Joceli Mayer, Subhasis Dasgupta, Subrata Nandi, Srinivasan Krishnaswamy, Pinaki Mitra, Mahendra Pratap Singh, Naga Prasanthi Kundeti, Chandra Sekhara Rao MVP, Sudha Sree Chekuri, Seshu Babu Pallapothu, Preethi Nanjundan, Jossy P. George, Abdelhadi El Allahi, Ilham Morino, Salma AIT Oussous, Siham Beloualid, Ahmed Tamtaoui, Abderrahim Bajit, (参考訳) 生成人工知能とモノのインターネットの時代は、データ量と関連する処理、分析、ストレージの必要性が爆発的に増加する一方で、スパイラルで偽の情報を識別し、機密データのプライバシーを保護する上で、いくつかの新たな課題に直面している。 これにより、認証、完全性保護、暗号化、非審査、データのプライバシー保護のためのより堅牢でレジリエントなスキームに対する需要が高まっている。 本書の章では、コンピュータと通信における暗号とセキュリティの分野における最先端の研究成果をいくつか紹介している。

In the era of generative artificial intelligence and the Internet of Things, while there is explosive growth in the volume of data and the associated need for processing, analysis, and storage, several new challenges are faced in identifying spurious and fake information and protecting the privacy of sensitive data. This has led to an increasing demand for more robust and resilient schemes for authentication, integrity protection, encryption, non-repudiation, and privacy-preservation of data. The chapters in this book present some of the state-of-the-art research works in the field of cryptography and security in computing and communications.
翻訳日:2024-04-04 06:36:22 公開日:2024-03-30
# 大規模言語モデルによるコンテンツベースレコメンデーションの強化

Enhancing Content-based Recommendation via Large Language Model ( http://arxiv.org/abs/2404.00236v1 )

ライセンス: Link先を確認
Wentao Xu, Qianqian Xie, Shuo Yang, Jiangxia Cao, Shuchao Pang, (参考訳) 現実世界のアプリケーションでは、ユーザは暗黙のクリック/ライクなインタラクションや明示的なコメント/レビューのインタラクションなど、さまざまなアイテムと対話する際に異なる振る舞いを表現します。 それでも、ほとんどすべてのレコメンデーターは、人のシナジーを見つけるために、暗黙のクリック/ライクなインタラクションによってユーザーの好みを記述する方法に焦点を当てている。 コンテンツベースの明示的なコメント/レビューのインタラクションでは、セマンティックな知識をマイニングしてレコメンダモデルを強化しようとする研究もある。 しかし、(1)コンテンツセマンティクスは普遍的な世界知識であり、どのようにして異なるドメインに力を与えるためにマルチアスペクトセマンティクス情報を抽出するのか。 (2) ユーザ/イテムID機能はレコメンデーションモデルの基本要素であり、IDとコンテンツセマンティックな特徴空間をどのように整合させるか? 本稿では,<plugin> 意味的知識伝達手法 \textbf{LoID} を提案する。 実世界のデータセットをベースラインとしたSOTAによる広範囲な実験を行い、本手法のLoIDを大幅に改善したことを示す。

In real-world applications, users express different behaviors when they interact with different items, including implicit click/like interactions, and explicit comments/reviews interactions. Nevertheless, almost all recommender works are focused on how to describe user preferences by the implicit click/like interactions, to find the synergy of people. For the content-based explicit comments/reviews interactions, some works attempt to utilize them to mine the semantic knowledge to enhance recommender models. However, they still neglect the following two points: (1) The content semantic is a universal world knowledge; how do we extract the multi-aspect semantic information to empower different domains? (2) The user/item ID feature is a fundamental element for recommender models; how do we align the ID and content semantic feature space? In this paper, we propose a `plugin' semantic knowledge transferring method \textbf{LoID}, which includes two major components: (1) LoRA-based large language model pretraining to extract multi-aspect semantic information; (2) ID-based contrastive objective to align their feature spaces. We conduct extensive experiments with SOTA baselines on real-world datasets, the detailed results demonstrating significant improvements of our method LoID.
翻訳日:2024-04-04 06:36:22 公開日:2024-03-30
# DeFT:効率的な木探索型LPM推論のためのIO認識付きフラッシュツリーアテンション

DeFT: Flash Tree-attention with IO-Awareness for Efficient Tree-search-based LLM Inference ( http://arxiv.org/abs/2404.00242v1 )

ライセンス: Link先を確認
Jinwei Yao, Kaiqi Chen, Kexun Zhang, Jiaxuan You, Binhang Yuan, Zeke Wang, Tao Lin, (参考訳) 木探索を用いたデコーディングは、トランスフォーマーベース大規模言語モデル(LLM)の推論品質を大幅に向上させることができる。 誘導信号によっては、制御性、推論能力、アライメント等を改善するためにLLM出力を形成することで、木の根から葉までの最良の経路を探索する。 しかし、現在のツリーデコード戦略と推論システムは、計算の冗長性、メモリフットプリント、メモリアクセスのために互いに適していないため、非効率な推論をもたらす。 1)QKV作成:GPUの高利用とGPUグローバルメモリとオンチップ共有メモリ間のKVキャッシュのメモリ読み込み/書き込みの削減を適宜行うため、KVをグループ化するためのKV誘導木分割戦略を提案する。 KVキャッシュIOの3.6-4.5$\times$の削減と、合計KVキャッシュIOの25%に相当する$\mathbf{Q} \mathbf{K}^\top$とSoftmaxに対するIOのさらなる削減により、DeFTはSOTAアテンションアルゴリズム上の2つの実用的な推論タスクのエンドツーエンドのレイテンシで1.7-2.4$\times$のスピードアップを達成することができる。

Decoding using tree search can greatly enhance the inference quality for transformer-based Large Language Models (LLMs). Depending on the guidance signal, it searches for the best path from root to leaf in the tree by forming LLM outputs to improve controllability, reasoning ability, alignment, et cetera. However, current tree decoding strategies and their inference systems do not suit each other well due to redundancy in computation, memory footprints, and memory access, resulting in inefficient inference. To address this issue, we propose DeFT, an IO-aware tree attention algorithm that maintains memory-efficient attention calculation with low memory footprints in two stages: (1) QKV Preparation: we propose a KV-Guided Tree Split strategy to group QKV wisely for high utilization of GPUs and reduction of memory reads/writes for the KV cache between GPU global memory and on-chip shared memory as much as possible; (2) Attention Calculation: we calculate partial attention of each QKV groups in a fused kernel then apply a Tree-topology-aware Global Reduction strategy to get final attention. Thanks to a reduction in KV cache IO by 3.6-4.5$\times$, along with an additional reduction in IO for $\mathbf{Q} \mathbf{K}^\top$ and Softmax equivalent to 25% of the total KV cache IO, DeFT can achieve a speedup of 1.7-2.4$\times$ in end-to-end latency across two practical reasoning tasks over the SOTA attention algorithms.
翻訳日:2024-04-04 06:36:22 公開日:2024-03-30
# 共同作業者にとって重要なこと:ブロックワールドにおける言語モデルの協調能力の評価

Your Co-Workers Matter: Evaluating Collaborative Capabilities of Language Models in Blocks World ( http://arxiv.org/abs/2404.00246v1 )

ライセンス: Link先を確認
Guande Wu, Chen Zhao, Claudio Silva, He He, (参考訳) 自分自身で世界と対話する言語エージェントは、デジタルタスクを自動化する大きな可能性を秘めている。 大規模言語モデル(LLM)エージェントは、テキストゲームやWebページコントロールなどのタスクの理解と実行を進歩させているが、現実のタスクの多くは、意図的理解、タスク調整、コミュニケーションを含む、人間や他のLLMと同等の役割で協調する必要がある。 LLMの協調性をテストするために、ブロックワールド環境を設計し、それぞれのエージェントがそれぞれ独自の目標とスキルを持ち、ターゲット構造を一緒に構築する。 目標を達成するために、彼らは世界で行動し、自然言語でコミュニケーションすることができる。 この環境下では、独立性からより複雑で依存的なタスクまで、さまざまなコラボレーションの観点を評価するために、ますます困難な設定を設計します。 さらに私たちは、パートナーの状態をモデル化し、実行エラーを特定し、修正するための中間的推論ステップを含む、チェーン・オブ・シークレットのプロンプトを採用しています。 人機械実験と機械機械実験の両方で, LLM は強い接地能力を有しており, 本手法は評価基準を大幅に改善する。

Language agents that interact with the world on their own have great potential for automating digital tasks. While large language model (LLM) agents have made progress in understanding and executing tasks such as textual games and webpage control, many real-world tasks also require collaboration with humans or other LLMs in equal roles, which involves intent understanding, task coordination, and communication. To test LLM's ability to collaborate, we design a blocks-world environment, where two agents, each having unique goals and skills, build a target structure together. To complete the goals, they can act in the world and communicate in natural language. Under this environment, we design increasingly challenging settings to evaluate different collaboration perspectives, from independent to more complex, dependent tasks. We further adopt chain-of-thought prompts that include intermediate reasoning steps to model the partner's state and identify and correct execution errors. Both human-machine and machine-machine experiments show that LLM agents have strong grounding capacities, and our approach significantly improves the evaluation metric.
翻訳日:2024-04-04 06:36:22 公開日:2024-03-30
# 伝達学習を用いたプロセス制御のための強化学習のファシリテート:視点

Facilitating Reinforcement Learning for Process Control Using Transfer Learning: Perspectives ( http://arxiv.org/abs/2404.00247v1 )

ライセンス: Link先を確認
Runze Lin, Junghui Chen, Lei Xie, Hongye Su, Biao Huang, (参考訳) 本稿では,伝達学習の観点からプロセス制御のための深層強化学習(DRL)の知見を提供する。 本稿では,プロセス産業分野におけるDRLの適用課題と転向学習の導入の必要性について分析する。 さらに、DRLと転写学習をどのように統合してプロセス制御を強化するかについて、今後の研究の方向性として推奨と展望が提供される。

This paper provides insights into deep reinforcement learning (DRL) for process control from the perspective of transfer learning. We analyze the challenges of applying DRL in the field of process industries and the necessity of introducing transfer learning. Furthermore, recommendations and prospects are provided for future research directions on how transfer learning can be integrated with DRL to empower process control.
翻訳日:2024-04-04 06:36:22 公開日:2024-03-30
# 共有変数を持つ線形モデルを用いたパレート集合セグメントの近似

Approximation of a Pareto Set Segment Using a Linear Model with Sharing Variables ( http://arxiv.org/abs/2404.00251v1 )

ライセンス: Link先を確認
Ping Guo, Qingfu Zhang, Xi Lin, (参考訳) 多くの実世界の応用において、連続多目的最適化問題のパレート集合(PS)は断片的に連続多様体である。 意思決定者はPSのごく一部を近似する解集合を見つけ、この集合の解がいくつかの類似点を共有することを要求するかもしれない。 本論文はこの問題に対処する最初の試みである。 まず、最適性と変数共有の両方を考慮した性能指標を開発する。 次に,ユーザの要求を満たすためのメトリックを最小化するモデルを求めるアルゴリズムを設計する。 実験結果から,選好ベクトルから局所領域の解への写像を近似した線形モデルが得られることが示された。

In many real-world applications, the Pareto Set (PS) of a continuous multiobjective optimization problem can be a piecewise continuous manifold. A decision maker may want to find a solution set that approximates a small part of the PS and requires the solutions in this set share some similarities. This paper makes a first attempt to address this issue. We first develop a performance metric that considers both optimality and variable sharing. Then we design an algorithm for finding the model that minimizes the metric to meet the user's requirements. Experimental results illustrate that we can obtain a linear model that approximates the mapping from the preference vectors to solutions in a local area well.
翻訳日:2024-04-04 06:36:22 公開日:2024-03-30
# ブラインドパノラマビデオ品質評価を支援する学習されたスキャンパス

Learned Scanpaths Aid Blind Panoramic Video Quality Assessment ( http://arxiv.org/abs/2404.00252v1 )

ライセンス: Link先を確認
Kanglong Fan, Wen Wen, Mu Li, Yifan Peng, Kede Ma, (参考訳) パノラマビデオは没入的でインタラクティブな視聴体験を提供するという利点がある。 それにもかかわらず、その球面的な性質は様々な不確実なユーザーの視聴行動を引き起こし、パノラマビデオ品質評価(PVQA)に重大な課題をもたらす。 本研究では,視覚スキャンパスを用いたユーザ・ビューング・パターンの明示的モデリングにより,エンドツーエンドで最適化された視覚的PVQA手法を提案する。 本手法は,スキャンパス生成器と品質評価器の2つのモジュールから構成される。 スキャンパスジェネレータは、期待するコード長を最小化し、品質予測のために品質評価器と共同最適化することで、将来のスキャンパスを予測するように訓練されている。 視覚的PVQA法は,パノラマ画像を同一フレームからなるビデオとして扱うことにより,直接品質評価を可能にする。 3つの公開パノラマ画像とビデオ品質データセットの実験は、合成歪みと真正歪みの両方を包含し、既存の手法よりも視覚型PVQAモデルの方が優れていることを検証した。

Panoramic videos have the advantage of providing an immersive and interactive viewing experience. Nevertheless, their spherical nature gives rise to various and uncertain user viewing behaviors, which poses significant challenges for panoramic video quality assessment (PVQA). In this work, we propose an end-to-end optimized, blind PVQA method with explicit modeling of user viewing patterns through visual scanpaths. Our method consists of two modules: a scanpath generator and a quality assessor. The scanpath generator is initially trained to predict future scanpaths by minimizing their expected code length and then jointly optimized with the quality assessor for quality prediction. Our blind PVQA method enables direct quality assessment of panoramic images by treating them as videos composed of identical frames. Experiments on three public panoramic image and video quality datasets, encompassing both synthetic and authentic distortions, validate the superiority of our blind PVQA model over existing methods.
翻訳日:2024-04-04 04:40:03 公開日:2024-03-30
# タンパク質表現学習のためのクラスタリング

Clustering for Protein Representation Learning ( http://arxiv.org/abs/2404.00254v1 )

ライセンス: Link先を確認
Ruijie Quan, Wenguan Wang, Fan Ma, Hehe Fan, Yi Yang, (参考訳) タンパク質表現学習は、アミノ酸配列からタンパク質の構造と機能を捉えることを目的とした課題である。 それまでの方法は、すべてのアミノ酸がタンパク質の折り畳みや活性に等しく重要であるわけではないという事実をほとんど無視していた。 本稿では,タンパク質の一次構造情報と第三次構造情報の両方を考慮し,タンパク質の臨界成分を自動的に検出するニューラルネットワーク・クラスタリング・フレームワークを提案する。 我々のフレームワークはタンパク質をグラフとして扱い、各ノードはアミノ酸を表し、各エッジはアミノ酸間の空間的またはシーケンシャルな接続を表す。 次に、反復的なクラスタリング戦略を適用し、1Dと3Dの位置に基づいてノードをクラスタにグループ化し、各クラスタにスコアを割り当てる。 最上位のクラスタを選択し、それらのメドイドノードをクラスタリングの次のイテレーションに使用し、タンパク質の階層的かつ情報的表現を得る。 タンパク質の折り畳み分類, 酵素反応分類, 遺伝子オントロジーの項予測, 酵素コミッショニング数予測の4つの課題について検討した。 実験により,本手法が最先端性能を実現することを示す。

Protein representation learning is a challenging task that aims to capture the structure and function of proteins from their amino acid sequences. Previous methods largely ignored the fact that not all amino acids are equally important for protein folding and activity. In this article, we propose a neural clustering framework that can automatically discover the critical components of a protein by considering both its primary and tertiary structure information. Our framework treats a protein as a graph, where each node represents an amino acid and each edge represents a spatial or sequential connection between amino acids. We then apply an iterative clustering strategy to group the nodes into clusters based on their 1D and 3D positions and assign scores to each cluster. We select the highest-scoring clusters and use their medoid nodes for the next iteration of clustering, until we obtain a hierarchical and informative representation of the protein. We evaluate on four protein-related tasks: protein fold classification, enzyme reaction classification, gene ontology term prediction, and enzyme commission number prediction. Experimental results demonstrate that our method achieves state-of-the-art performance.
翻訳日:2024-04-04 04:40:03 公開日:2024-03-30
# YOLOOC:新しいクラス発見によるオープンクラスインクリメンタルオブジェクト検出

YOLOOC: YOLO-based Open-Class Incremental Object Detection with Novel Class Discovery ( http://arxiv.org/abs/2404.00257v1 )

ライセンス: Link先を確認
Qian Wan, Xiang Xiang, Qinhao Zhou, (参考訳) 実際に使われているため、最近、オープンワールドオブジェクト検出(OWOD)が注目されている。 課題は、モデルが新しいクラスをどうやって検出し、以前に知られていたクラスを忘れずに段階的に学習するかである。 従来のアプローチでは、新しいクラス検出のための強力な教師付きまたは弱い教師付き新しいクラスデータにヒンジするが、実際のアプリケーションには適用されない可能性がある。 推論段階でのみ新しいクラスが遭遇する新しいベンチマークを構築した。 また, YOLOアーキテクチャをベースとした新しいOWOD検出器 YOLOOC を提案する。 ラベルスムーシングを導入し,新しいクラスを既知のクラスに過剰にマッピングするのを防ぐとともに,新しいクラスを発見できるようにする。 より現実的な設定で行った大規模な実験は、我々の新しいベンチマークで新しいクラスを見つけるための方法の有効性を実証する。

Because of its use in practice, open-world object detection (OWOD) has gotten a lot of attention recently. The challenge is how can a model detect novel classes and then incrementally learn them without forgetting previously known classes. Previous approaches hinge on strongly-supervised or weakly-supervised novel-class data for novel-class detection, which may not apply to real applications. We construct a new benchmark that novel classes are only encountered at the inference stage. And we propose a new OWOD detector YOLOOC, based on the YOLO architecture yet for the Open-Class setup. We introduce label smoothing to prevent the detector from over-confidently mapping novel classes to known classes and to discover novel classes. Extensive experiments conducted on our more realistic setup demonstrate the effectiveness of our method for discovering novel classes in our new benchmark.
翻訳日:2024-04-04 04:40:03 公開日:2024-03-30
# 画像超解像における自己超解像の爆発的抑制

Exploiting Self-Supervised Constraints in Image Super-Resolution ( http://arxiv.org/abs/2404.00260v1 )

ライセンス: Link先を確認
Gang Wu, Junjun Jiang, Kui Jiang, Xianming Liu, (参考訳) 自己教師型学習の最近の進歩は、主に高次視覚タスクにおいて研究され、低次画像処理において研究されている。 本稿では,SSC-SRと呼ばれる単一画像超解像のための新しい自己監督制約を提案する。 SSC-SRは、安定性を高めるために指数移動平均によって更新された二重非対称パラダイムとターゲットモデルを用いることで、画像の複雑さのばらつきに一意に対処する。 提案したSSC-SRフレームワークはプラグアンドプレイのパラダイムとして機能し、既存のSRモデルにも容易に適用できる。 SSC-SRフレームワークはさまざまなベンチマークデータセットに対して,EDSR平均0.1dB,SwinIR平均0.06dBの大幅な拡張を実現している。 さらに, 広範囲にわたるアブレーション研究は, SSC-SRフレームワークにおける各構成成分の有効性を裏付けるものである。 コードはhttps://github.com/Aitical/SSCSRで公開されている。

Recent advances in self-supervised learning, predominantly studied in high-level visual tasks, have been explored in low-level image processing. This paper introduces a novel self-supervised constraint for single image super-resolution, termed SSC-SR. SSC-SR uniquely addresses the divergence in image complexity by employing a dual asymmetric paradigm and a target model updated via exponential moving average to enhance stability. The proposed SSC-SR framework works as a plug-and-play paradigm and can be easily applied to existing SR models. Empirical evaluations reveal that our SSC-SR framework delivers substantial enhancements on a variety of benchmark datasets, achieving an average increase of 0.1 dB over EDSR and 0.06 dB over SwinIR. In addition, extensive ablation studies corroborate the effectiveness of each constituent in our SSC-SR framework. Codes are available at https://github.com/Aitical/SSCSR.
翻訳日:2024-04-04 04:40:03 公開日:2024-03-30
# セッションベース勧告の多様化のためのシンプルで効果的なアプローチ

A Simple Yet Effective Approach for Diversified Session-Based Recommendation ( http://arxiv.org/abs/2404.00261v1 )

ライセンス: Link先を確認
Qing Yin, Hui Fang, Zhu Sun, Yew-Soon Ong, (参考訳) セッションベースのレコメンデータシステム(SBRS)は、短期的および動的なユーザの好みをキャプチャするコア機能の観点から非常に人気がある。 しかし、ほとんどのSBRSはリコメンデーションの精度を最大化するが、ユーザのマイナーな好みを無視するので、長期的にはバブルをフィルタする。 多様性の向上に専念した少数の作品のみが、独自のモデル設計とキャリブレーションされた損失関数に依存しており、既存の精度指向のSBRSに容易に適応できない。 したがって、リコメンデーションの正確性を保ったまま、より多様化したリストを生成する上で、既存のSBRSを容易にするためのプラグインとして使用できる、シンプルで効果的な設計を考え出す価値がある。 本稿では,従来のSBRS(Diversified category-aware Attentive SBRS, DCA-SBRS)に適用されるエンドツーエンドフレームワークを提案し,レコメンデーションの多様性の向上を図る。 モデルに依存しない多様性指向の損失関数と、非侵襲的なカテゴリー認識の注意機構の2つの新しい設計で構成されている。 3つのデータセットに対する大規模な実験により,既存のSBRSは,最新の精度指向のSBRSと比較して,推奨精度を著しく低下させることなく,推薦の多様性と包括的性能において優れたパフォーマンスを達成することができた。

Session-based recommender systems (SBRSs) have become extremely popular in view of the core capability of capturing short-term and dynamic user preferences. However, most SBRSs primarily maximize recommendation accuracy but ignore user minor preferences, thus leading to filter bubbles in the long run. Only a handful of works, being devoted to improving diversity, depend on unique model designs and calibrated loss functions, which cannot be easily adapted to existing accuracy-oriented SBRSs. It is thus worthwhile to come up with a simple yet effective design that can be used as a plugin to facilitate existing SBRSs on generating a more diversified list in the meantime preserving the recommendation accuracy. In this case, we propose an end-to-end framework applied for every existing representative (accuracy-oriented) SBRS, called diversified category-aware attentive SBRS (DCA-SBRS), to boost the performance on recommendation diversity. It consists of two novel designs: a model-agnostic diversity-oriented loss function, and a non-invasive category-aware attention mechanism. Extensive experiments on three datasets showcase that our framework helps existing SBRSs achieve extraordinary performance in terms of recommendation diversity and comprehensive performance, without significantly deteriorating recommendation accuracy compared to state-of-the-art accuracy-oriented SBRSs.
翻訳日:2024-04-04 04:40:03 公開日:2024-03-30
# 基礎モデルによる画像間マッチング:オープン語彙セマンティックセマンティックセグメンテーションの新しい視点

Image-to-Image Matching via Foundation Models: A New Perspective for Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2404.00262v1 )

ライセンス: Link先を確認
Yuan Wang, Rui Sun, Naisong Luo, Yuwen Pan, Tianzhu Zhang, (参考訳) Open-vocabulary semantic segmentation (OVS)は、クラスラベルやキャプションによって指定された任意のカテゴリのイメージをセグメンテーションすることを目的としている。 しかし、画素グループ化法や領域認識法など、これまでで最も優れた手法は、画像特徴とカテゴリラベルの誤一致に悩まされていた。 これは、テキストの特徴と視覚的特徴の間に自然のギャップがあるためである。 本稿では,画像と画像のマッチングの観点から,偽マッチングを緩和する方法を再考し,視覚基盤モデルに基づくOVSのための新しいリレーショナル・アウェア・イントラモーダルマッチング(RIM)フレームワークを提案する。 RIMは、まず、多様な画像モーダル参照機能を構築し、その後、関係性を考慮したランキング分布に基づく地域特徴とマッチングすることにより、堅牢な地域分類を実現する。 提案されたRIMはいくつかのメリットを享受している。 第一に、モーダル内参照機能はより整合性が高く、モーダル間マッチングで生じる可能性のある曖昧さを回避している。 第2に、ランキングベースのマッチングプロセスは、クラス間の関係において暗黙的に構造情報を利用するため、個別に比較するよりも堅牢である。 3つのベンチマークの大規模な実験により、RIMは従来の最先端の手法を大きなマージンで上回り、PASCAL VOCベンチマークでmIoUの10%以上をリードしている。

Open-vocabulary semantic segmentation (OVS) aims to segment images of arbitrary categories specified by class labels or captions. However, most previous best-performing methods, whether pixel grouping methods or region recognition methods, suffer from false matches between image features and category labels. We attribute this to the natural gap between the textual features and visual features. In this work, we rethink how to mitigate false matches from the perspective of image-to-image matching and propose a novel relation-aware intra-modal matching (RIM) framework for OVS based on visual foundation models. RIM achieves robust region classification by firstly constructing diverse image-modal reference features and then matching them with region features based on relation-aware ranking distribution. The proposed RIM enjoys several merits. First, the intra-modal reference features are better aligned, circumventing potential ambiguities that may arise in cross-modal matching. Second, the ranking-based matching process harnesses the structure information implicit in the inter-class relationships, making it more robust than comparing individually. Extensive experiments on three benchmarks demonstrate that RIM outperforms previous state-of-the-art methods by large margins, obtaining a lead of more than 10% in mIoU on PASCAL VOC benchmark.
翻訳日:2024-04-04 04:40:03 公開日:2024-03-30
# DiLM:テキストレベルのデータセット蒸留のための言語モデルへのデータセットの蒸留

DiLM: Distilling Dataset into Language Model for Text-level Dataset Distillation ( http://arxiv.org/abs/2404.00264v1 )

ライセンス: Link先を確認
Aru Maekawa, Satoshi Kosugi, Kotaro Funakoshi, Manabu Okumura, (参考訳) データセットの蒸留は、トレーニングデータセット上でトレーニングされたニューラルネットワークと、オリジナルのトレーニングデータセットでトレーニングされたデータセットを実行するような、少数の情報的合成サンプルを作成することで、トレーニングデータセットを圧縮することを目的としている。 現在のテキストデータセット蒸留法は, テキストの代わりに単語埋め込みのシーケンスとして各合成サンプルを作成し, 勾配に基づく最適化を適用するが, 単語埋め込み重量が異なる他のモデルの訓練にはそのような埋め込みレベルの蒸留データセットは使用できない。 そこで本研究では,合成サンプルを直接最適化するのではなく,テキストデータとして情報的合成学習サンプルを生成するための言語モデルを訓練する,Distilling dataset into Language Model (DiLM) と呼ばれる新しいテキストデータセット蒸留手法を提案する。 各種テキスト分類データセットを用いてDLMを評価した結果,DLMから抽出した合成データセットは,現在のコアセット選択法よりも優れていた。 DiLMは、異なるタイプのモデルのトレーニングや、大規模言語モデルのコンテキスト内学習において、顕著な一般化性能を達成した。 私たちのコードはhttps://github.com/arumaekawa/DiLM.comで公開されます。

Dataset distillation aims to compress a training dataset by creating a small number of informative synthetic samples such that neural networks trained on them perform as well as those trained on the original training dataset. Current text dataset distillation methods create each synthetic sample as a sequence of word embeddings instead of a text to apply gradient-based optimization; however, such embedding-level distilled datasets cannot be used for training other models whose word embedding weights are different from the model used for distillation. To address this issue, we propose a novel text dataset distillation approach, called Distilling dataset into Language Model (DiLM), which trains a language model to generate informative synthetic training samples as text data, instead of directly optimizing synthetic samples. We evaluated DiLM on various text classification datasets and showed that distilled synthetic datasets from DiLM outperform those from current coreset selection methods. DiLM achieved remarkable generalization performance in training different types of models and in-context learning of large language models. Our code will be available at https://github.com/arumaekawa/DiLM.
翻訳日:2024-04-04 04:40:03 公開日:2024-03-30
# シークレット・キーパー : LLMが個人特性の言語学的マーカーに与える影響

Secret Keepers: The Impact of LLMs on Linguistic Markers of Personal Traits ( http://arxiv.org/abs/2404.00267v1 )

ライセンス: Link先を確認
Zhivar Sourati, Meltem Ozcan, Colin McDaniel, Alireza Ziabari, Nuan Wen, Ala Tak, Fred Morstatter, Morteza Dehghani, (参考訳) 我々の言語パターンは、私たちの個性、感情状態、信念に関する情報を明らかにする。 しかし、日々の執筆におけるアシスタントとしてのLarge Language Models(LLMs)の採用が増加しているため、重要な疑問が浮かび上がっている。 性別,年齢,政治的親和性,性格,共感性,道徳性という6つの異なる特徴にまたがる3つのLLM(GPT3.5,Llama 2,Gemini)の言語マーカーに対するLLMの影響について検討した。 その結果, LLMの使用は, 著者の個人的特徴に対する言語パターンの予測力をわずかに低下させるが, 顕著な変化は稀であり, 著者の個人的特徴に対する言語パターンの予測力を完全に低下させるものではないことが示唆された。 また, 理論的に確立された語彙に基づく言語マーカーは, LLMを記述プロセスで使用する場合, 予測因子として信頼性を失うことに留意する。 LLMの時代における個人的特徴の言語マーカーの研究に重要な意味を持つ。

Prior research has established associations between individuals' language usage and their personal traits; our linguistic patterns reveal information about our personalities, emotional states, and beliefs. However, with the increasing adoption of Large Language Models (LLMs) as writing assistants in everyday writing, a critical question emerges: are authors' linguistic patterns still predictive of their personal traits when LLMs are involved in the writing process? We investigate the impact of LLMs on the linguistic markers of demographic and psychological traits, specifically examining three LLMs - GPT3.5, Llama 2, and Gemini - across six different traits: gender, age, political affiliation, personality, empathy, and morality. Our findings indicate that although the use of LLMs slightly reduces the predictive power of linguistic patterns over authors' personal traits, the significant changes are infrequent, and the use of LLMs does not fully diminish the predictive power of authors' linguistic patterns over their personal traits. We also note that some theoretically established lexical-based linguistic markers lose their reliability as predictors when LLMs are used in the writing process. Our findings have important implications for the study of linguistic markers of personal traits in the age of LLMs.
翻訳日:2024-04-04 04:40:03 公開日:2024-03-30
# IPoD:1枚のRGB-D画像からの一般化可能な3次元物体再構成のための点拡散を用いた暗黙フィールド学習

IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images ( http://arxiv.org/abs/2404.00269v1 )

ライセンス: Link先を確認
Yushuang Wu, Luyue Shi, Junhao Cai, Weihao Yuan, Lingteng Qiu, Zilong Dong, Liefeng Bo, Shuguang Cui, Xiaoguang Han, (参考訳) 単一視点のRGB-D画像からの一般化可能な3Dオブジェクト再構成は、特に実世界のデータでは難しい課題である。 現在の最先端の手法はトランスフォーマーに基づく暗黙のフィールド学習を開発し、全空間にわたって一様にサンプリングされる密度の高いクエリスーパービジョンを必要とする集中的な学習パラダイムを必要とする。 本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。 このアプローチは、暗黙的なフィールド学習のための問合せポイントを、反復的雑音化のためのノイズの多い点クラウドとして扱い、ターゲットオブジェクト形状への動的適応を可能にする。 このような適応的な問合せポイントは、拡散学習の粗い形状回復能力を利用しており、また、より詳細な詳細を記述できる暗黙の表現能力も強化している。 さらに、拡散学習のガイダンスとして暗黙の予測を用いることで、協調的なシステムを実現するために、追加の自己条件機構が設計されている。 CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。 IPoDの一般化性は、MVImgNetデータセットにも示されている。 プロジェクトページはhttps://yushuang-wu.github.io/IPoD.com/。

Generalizable 3D object reconstruction from single-view RGB-D images remains a challenging task, particularly with real-world data. Current state-of-the-art methods develop Transformer-based implicit field learning, necessitating an intensive learning paradigm that requires dense query-supervision uniformly sampled throughout the entire space. We propose a novel approach, IPoD, which harmonizes implicit field learning with point diffusion. This approach treats the query points for implicit field learning as a noisy point cloud for iterative denoising, allowing for their dynamic adaptation to the target object shape. Such adaptive query points harness diffusion learning's capability for coarse shape recovery and also enhances the implicit representation's ability to delineate finer details. Besides, an additional self-conditioning mechanism is designed to use implicit predictions as the guidance of diffusion learning, leading to a cooperative system. Experiments conducted on the CO3D-v2 dataset affirm the superiority of IPoD, achieving 7.8% improvement in F-score and 28.6% in Chamfer distance over existing methods. The generalizability of IPoD is also demonstrated on the MVImgNet dataset. Our project page is at https://yushuang-wu.github.io/IPoD.
翻訳日:2024-04-04 04:40:03 公開日:2024-03-30
# TG-NAS: 効率的なニューラルネットワーク探索のためのトランスフォーマーとグラフ畳み込みネットワークによるゼロコストプロキシの活用

TG-NAS: Leveraging Zero-Cost Proxies with Transformer and Graph Convolution Networks for Efficient Neural Architecture Search ( http://arxiv.org/abs/2404.00271v1 )

ライセンス: Link先を確認
Ye Qiao, Haocheng Xu, Sitao Huang, (参考訳) ニューラルアーキテクチャサーチ(NAS)は、新しい畳み込みニューラルネットワーク(CNN)アーキテクチャを発見する効果的な方法である。 しかし、既存のアプローチでは、しばしば時間を要するトレーニングや集中的なサンプリングと評価を必要とします。 Zero-shot NASは、アーキテクチャのパフォーマンス予測のためのトレーニング不要のプロキシを作成することを目的としている。 しかし、既存のプロキシは最適以下の性能を持ち、しばしばモデルパラメータ数や浮動小数点演算数といった単純な測定値よりも優れている。 さらに、既存のモデルベースのプロキシは、黄金の精度の真偽のない新しいタイプの演算子を持つ新しい探索空間に一般化することはできない。 普遍的に最適なプロキシは、いまだ解明されていない。 TG-NASはトランスフォーマーベースの演算子埋め込みジェネレータとグラフ畳み込みネットワーク(GCN)を利用してアーキテクチャ性能を予測する新しいモデルベースユニバーサルプロキシである。 このアプローチは、リトレーニングを必要とせずに、任意の検索空間を横断するニューラルネットワーク探索をガイドする。 他のモデルベースの予測サブルーチンとは違い、TG-NAS自身はゼロコスト(ZC)プロキシとして機能し、データ独立性、コスト効率性、さまざまな検索空間における一貫性といった利点でアーキテクチャ検索を導く。 提案実験では,NASベンチマークにおける既存プロキシに対する優位性を実証し,効率的なアーキテクチャ探索の基盤要素としての可能性を示した。 TG-NASは従来のSOTA ZCプロキシ手法と比較して最大300倍の検索効率向上を実現している。 特に、NAS-Bench-201空間で93.75%のCIFAR-10精度、DARTS空間で74.5%のImageNet Top-1精度の競合モデルを発見した。

Neural architecture search (NAS) is an effective method for discovering new convolutional neural network (CNN) architectures. However, existing approaches often require time-consuming training or intensive sampling and evaluations. Zero-shot NAS aims to create training-free proxies for architecture performance prediction. However, existing proxies have suboptimal performance, and are often outperformed by simple metrics such as model parameter counts or the number of floating-point operations. Besides, existing model-based proxies cannot be generalized to new search spaces with unseen new types of operators without golden accuracy truth. A universally optimal proxy remains elusive. We introduce TG-NAS, a novel model-based universal proxy that leverages a transformer-based operator embedding generator and a graph convolution network (GCN) to predict architecture performance. This approach guides neural architecture search across any given search space without the need of retraining. Distinct from other model-based predictor subroutines, TG-NAS itself acts as a zero-cost (ZC) proxy, guiding architecture search with advantages in terms of data independence, cost-effectiveness, and consistency across diverse search spaces. Our experiments showcase its advantages over existing proxies across various NAS benchmarks, suggesting its potential as a foundational element for efficient architecture search. TG-NAS achieves up to 300X improvements in search efficiency compared to previous SOTA ZC proxy methods. Notably, it discovers competitive models with 93.75% CIFAR-10 accuracy on the NAS-Bench-201 space and 74.5% ImageNet top-1 accuracy on the DARTS space.
翻訳日:2024-04-04 04:40:03 公開日:2024-03-30
# HSIMamba: 双方向状態空間を用いた高精巣画像の高能率特徴学習

HSIMamba: Hyperpsectral Imaging Efficient Feature Learning with Bidirectional State Space for Classification ( http://arxiv.org/abs/2404.00272v1 )

ライセンス: Link先を確認
Judy X Yang, Jun Zhou, Jing Wang, Hui Tian, Alan Wee Chung Liew, (参考訳) ハイパースペクトル画像の分類は、複雑な高次元データのため、リモートセンシングでは難しい課題である。 この課題に対処するために、双方向逆畳み込みニューラルネットワーク経路を用いてより効率的にスペクトル特徴を抽出する新しいフレームワークであるHSIMambaを提案する。 さらに、空間分析のための特別なブロックも組み込まれている。 提案手法は,CNNの動作効率と,トランスフォーマに見られる注意機構の動的特徴抽出機能を組み合わせたものである。 しかし、これは関連する高い計算要求を避ける。 HSIMambaは、データを双方向に処理し、スペクトル特徴の抽出を著しく強化し、空間情報と統合して包括的な分析を行うように設計されている。 このアプローチは、現在のベンチマークを超えて分類精度を改善し、トランスフォーマーのような高度なモデルで遭遇する計算の非効率性に対処する。 HSIMambaは、ヒューストン2013、インドパインズ、パヴィア大学の3つの広く知られているデータセットに対してテストされ、HSI分類における既存の最先端モデルよりも優れた性能を示した。 本手法は,HSIMambaの方法論的革新とその実践的意味を強調し,特に計算資源が限られている状況において有用である。 HSIMambaは、HSI分類における効率と精度の基準を再定義し、リモートセンシングアプリケーションの能力を高める。 ハイパースペクトルイメージングは、地球表面の詳細な分析を必要とする環境監視、農業、その他の重要な領域にとって重要なツールとなっている。 詳細はHSIMambaのコードを参照してください。

Classifying hyperspectral images is a difficult task in remote sensing, due to their complex high-dimensional data. To address this challenge, we propose HSIMamba, a novel framework that uses bidirectional reversed convolutional neural network pathways to extract spectral features more efficiently. Additionally, it incorporates a specialized block for spatial analysis. Our approach combines the operational efficiency of CNNs with the dynamic feature extraction capability of attention mechanisms found in Transformers. However, it avoids the associated high computational demands. HSIMamba is designed to process data bidirectionally, significantly enhancing the extraction of spectral features and integrating them with spatial information for comprehensive analysis. This approach improves classification accuracy beyond current benchmarks and addresses computational inefficiencies encountered with advanced models like Transformers. HSIMamba were tested against three widely recognized datasets Houston 2013, Indian Pines, and Pavia University and demonstrated exceptional performance, surpassing existing state-of-the-art models in HSI classification. This method highlights the methodological innovation of HSIMamba and its practical implications, which are particularly valuable in contexts where computational resources are limited. HSIMamba redefines the standards of efficiency and accuracy in HSI classification, thereby enhancing the capabilities of remote sensing applications. Hyperspectral imaging has become a crucial tool for environmental surveillance, agriculture, and other critical areas that require detailed analysis of the Earth surface. Please see our code in HSIMamba for more details.
翻訳日:2024-04-04 04:40:03 公開日:2024-03-30
# Förster-Resonance-Enhanced Interaction によるRydberg超原子の鎖のイメージング

Imaging a Chain of Rydberg Superatoms Enabled by Förster-Resonance-Enhanced Interaction ( http://arxiv.org/abs/2404.00274v1 )

ライセンス: Link先を確認
Jinjin Du, Thibault Vogt, Ningxuan Zheng, Wenhui Li, (参考訳) 我々は、個々のRydberg超原子の単発および<textit{in situ}吸収イメージングを実証した。 このレベルの分解は、F\"{o}rster-resonance-enhanced dipole couplings(英語版)により、Rydberg超原子の存在に非常に敏感な、Rydbergエネルギーレベルを含む電磁誘導透過スキームを用いて達成される。 分光測定は、F\"{o}rster resonanceの存在を示し、この技術の状態選択性を強調する。 3$\mu$sの短い画像露光時間で、リドバーグ超原子の線形鎖を1次元に励起することに成功した。 抽出された2階相関式は励起遮断による強い反バンチを示し、フーリエ解析により、リドベルク超原子鎖の長距離秩序を明らかにする。 最小限の破壊力を持つこのイメージング技術は、量子計算や量子シミュレーションの応用において、エンサンブル符号化された量子ビットを利用する上で大きな関心を持つだろう。

We demonstrate single-shot and \textit{in situ} absorption imaging of individual Rydberg superatoms. This level of resolution is achieved using an electromagnetically induced transparency scheme involving a Rydberg energy level that is highly sensitive to the presence of Rydberg superatoms due to F\"{o}rster-resonance-enhanced dipole couplings. Spectroscopic measurements illustrate the existence of the F\"{o}rster resonance and underscore the state-selectivity of the technique. With an imaging exposure time as short as 3 $\mu$s, we successfully resolve linear chains of Rydberg superatoms excited in a one-dimensional configuration. The extracted second-order correlation shows strong anti-bunching due to excitation blockade, and a Fourier analysis reveals the long-range order in the chains of Rydberg superatoms. This imaging technique, with minimal destruction, will be of great interest for leveraging ensemble-encoded qubits in quantum computation and quantum simulation applications.
翻訳日:2024-04-04 04:40:03 公開日:2024-03-30
# 1次元における2体接触相互作用の離散的スケール不変性と$U(2)$家族

Discrete Scale Invariance and $U(2)$ Family of Two-Body Contact Interactions in One Dimension ( http://arxiv.org/abs/2404.00275v1 )

ライセンス: Link先を確認
Satoshi Ohya, (参考訳) 不明瞭性制約がないため、非同一粒子間の粒子間相互作用は一般に同一粒子間の粒子間相互作用よりもはるかに多様である。 特に、1つの空間次元に非恒等粒子間の2体接触相互作用の$U(2)$族が存在することが知られている。 本稿では, 半直線上の非恒等粒子の2体問題において, このU(2)$の2体接触相互作用のファミリの下での離散スケール不変性に対する連続スケール不変性の分解について検討する。 対応する同一粒子問題とは対照的に、2体境界状態の幾何列を許容する2つの異なるチャネルが存在することを示す。

Because of the absence of indistinguishability constraint, interparticle interactions between nonidentical particles have in general much more variety than those between identical particles. In particular, it is known that there exists a $U(2)$ family of two-body contact interactions between nonidentical particles in one spatial dimension. This paper studies breakdown of continuous scale invariance to discrete scale invariance under this $U(2)$ family of two-body contact interactions in two-body problems of nonidentical particles on the half line. We show that, in contrast to the corresponding identical-particle problem, there exist two distinct channels that admit geometric sequences of two-body bound states.
翻訳日:2024-04-04 04:40:03 公開日:2024-03-30
# 大規模言語モデルに基づくインストラクション駆動型ゲームエンジン

Instruction-Driven Game Engines on Large Language Models ( http://arxiv.org/abs/2404.00276v1 )

ライセンス: Link先を確認
Hongqiu Wu, Yan Wang, Xingyuan Liu, Hai Zhao, Min Zhang, (参考訳) Instruction-Driven Game Engine(IDGE)プロジェクトは、大規模言語モデル(LLM)が自由形式のゲームルールに従い、自律的にゲームプレイプロセスを生成できるようにすることで、ゲーム開発を民主化することを目的としている。 IDGEは、ユーザーが単純な自然言語命令を発行することでゲームを作成することができるため、ゲーム開発における障壁は大幅に低下する。 我々は,IDGEの学習過程を次の状態予測タスクとしてアプローチし,ゲーム内状態を自動回帰予測する。 ゲーム内状態の計算が正確でなければならず、さもなくばわずかなエラーでゲームプレイが破壊される可能性があるため、これは難しいタスクである。 これを解決するために、我々は、複雑なシナリオに対するモデルの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。 私たちの最初の進歩は、汎用的なカードゲームであるPoker用のIDGEを開発することです。 私たちが設計したエンジンは、幅広いポーカー変種をサポートするだけでなく、自然言語入力によるルールの高度なカスタマイズも可能にしています。 さらに、最小限のサンプルから新しいゲームの迅速なプロトタイピングを推奨し、最小限のプロンプトとデータエンジニアリングに依存するゲーム開発における革新的なパラダイムを提案している。 この研究は、命令駆動型ゲーム作成の今後の進歩の基盤となり、ゲームの設計とプレイの仕方を変える可能性がある。

The Instruction-Driven Game Engine (IDGE) project aims to democratize game development by enabling a large language model (LLM) to follow free-form game rules and autonomously generate game-play processes. The IDGE allows users to create games by issuing simple natural language instructions, which significantly lowers the barrier for game development. We approach the learning process for IDGEs as a Next State Prediction task, wherein the model autoregressively predicts in-game states given player actions. It is a challenging task because the computation of in-game states must be precise; otherwise, slight errors could disrupt the game-play. To address this, we train the IDGE in a curriculum manner that progressively increases the model's exposure to complex scenarios. Our initial progress lies in developing an IDGE for Poker, a universally cherished card game. The engine we've designed not only supports a wide range of poker variants but also allows for high customization of rules through natural language inputs. Furthermore, it also favors rapid prototyping of new games from minimal samples, proposing an innovative paradigm in game development that relies on minimal prompt and data engineering. This work lays the groundwork for future advancements in instruction-driven game creation, potentially transforming how games are designed and played.
翻訳日:2024-04-04 04:40:03 公開日:2024-03-30
# 画像復元用高周波インジェクトトランス

Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration ( http://arxiv.org/abs/2404.00279v1 )

ライセンス: Link先を確認
Shihao Zhou, Duosheng Chen, Jinshan Pan, Jufeng Yang, (参考訳) トランスフォーマーベースのアプローチは、長期的な依存関係をうまくモデル化できるため、画像復元において優れたパフォーマンスを実現している。 しかし、ローカル情報を取得する際の制限は、劣化を取り除く能力を制限する。 既存のアプローチでは畳み込み操作を取り入れてこの問題を緩和しようとするが、Transformerのコアコンポーネント、すなわちローパスフィルタとして機能するセルフアテンションは、意図せず、取得したローカルパターンを減らしたり、削除したりする。 本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。 具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。 また、相互強化パラダイムを用いて、異なるスケールで特徴を集約する双方向対話モジュール(BIM)を開発し、空間的および文脈的に改善された表現をもたらす。 さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。 9つのタスク(実際の騒音、実際の雨量、雨滴、動きのぼかし、モワール、シャドー、雪、ヘイズ、低照度条件)に対する大規模な実験は、線形計算複雑性を持つHITが最先端の手法に対して好適に機能することを示した。 ソースコードと事前トレーニングされたモデルはhttps://github.com/joshyZhou/HIT.comで入手できる。

Transformer-based approaches have achieved superior performance in image restoration, since they can model long-term dependencies well. However, the limitation in capturing local information restricts their capacity to remove degradations. While existing approaches attempt to mitigate this issue by incorporating convolutional operations, the core component in Transformer, i.e., self-attention, which serves as a low-pass filter, could unintentionally dilute or even eliminate the acquired local patterns. In this paper, we propose HIT, a simple yet effective High-frequency Injected Transformer for image restoration. Specifically, we design a window-wise injection module (WIM), which incorporates abundant high-frequency details into the feature map, to provide reliable references for restoring high-quality images. We also develop a bidirectional interaction module (BIM) to aggregate features at different scales using a mutually reinforced paradigm, resulting in spatially and contextually improved representations. In addition, we introduce a spatial enhancement unit (SEU) to preserve essential spatial relationships that may be lost due to the computations carried out across channel dimensions in the BIM. Extensive experiments on 9 tasks (real noise, real rain streak, raindrop, motion blur, moir\'e, shadow, snow, haze, and low-light condition) demonstrate that HIT with linear computational complexity performs favorably against the state-of-the-art methods. The source code and pre-trained models will be available at https://github.com/joshyZhou/HIT.
翻訳日:2024-04-04 04:40:03 公開日:2024-03-30
# 大規模言語モデルによる強化強化学習に関する調査:概念・分類・方法

Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods ( http://arxiv.org/abs/2404.00282v1 )

ライセンス: Link先を確認
Yuji Cao, Huan Zhao, Yuheng Cheng, Ting Shu, Guolong Liu, Gaoqi Liang, Junhua Zhao, Yun Li, (参考訳) 事前訓練された知識と高レベルの汎用能力により、多タスク学習、サンプル効率、タスクプランニングといった側面において強化学習(RL)を強化するための有望な手段として、大規模言語モデル(LLM)が出現する。 本調査では,従来のRL法と比較して,既存の文献を包括的にレビューし,その特徴を要約し,今後の研究対象と方向性を明らかにすることを目的とする。 従来のエージェント環境相互作用のパラダイムを用いて,情報処理,報酬設計,意思決定,ジェネレータの4つの役割を含む,RLにおけるLLMの機能を体系的に分類する構造的分類法を提案する。 さらに、各役割について、方法論を要約し、緩和される特定のRL課題を分析し、今後の方向性についての洞察を提供する。 最後に、$\textit{LLM-enhanced RL}$の潜在的な応用、将来的な可能性、課題について議論する。

With extensive pre-trained knowledge and high-level general capabilities, large language models (LLMs) emerge as a promising avenue to augment reinforcement learning (RL) in aspects such as multi-task learning, sample efficiency, and task planning. In this survey, we provide a comprehensive review of the existing literature in $\textit{LLM-enhanced RL}$ and summarize its characteristics compared to conventional RL methods, aiming to clarify the research scope and directions for future studies. Utilizing the classical agent-environment interaction paradigm, we propose a structured taxonomy to systematically categorize LLMs' functionalities in RL, including four roles: information processor, reward designer, decision-maker, and generator. Additionally, for each role, we summarize the methodologies, analyze the specific RL challenges that are mitigated, and provide insights into future directions. Lastly, potential applications, prospective opportunities and challenges of the $\textit{LLM-enhanced RL}$ are discussed.
翻訳日:2024-04-04 04:30:18 公開日:2024-03-30
# 対称性の破れた均一磁場中のツイスト荷電粒子

Twisted charged particles in the uniform magnetic field with broken symmetry ( http://arxiv.org/abs/2404.00283v1 )

ライセンス: Link先を確認
N. V. Filina, S. S. Baturin, (参考訳) 本稿では, 軌道角運動量(OAM)の非ゼロ射影を持つ荷電粒子を, ベクトルポテンシャルの対称性が破れた均一磁場中で理論的に記述する。 波動関数は、連続ゲージパラメータを通して非対称性を自然に説明し、よく用いられるラゲール=ガウス状態の一般化である。 代数的な観点から非対称ハミルトニアンを解析し、ねじれ状態のOAM射影が対称性の破れによってどのように修正されるかを示す。 我々は、エネルギー、RMSサイズ、カジミール不変量などの非対称状態の性質の解析的枠組みを提供し、提案された記述の利点について議論する。

We present a theoretical description of charged particles with nonzero projection of the orbital angular momentum (OAM) in a uniform magnetic field with broken symmetry of the vector potential. The wave functions we find naturally account for the asymmetry through the continuous gauge parameter and are a generalization of the commonly used Laguerre-Gauss states. We analyze the asymmetric Hamiltonian from an algebraic point of view and show how the OAM projection of the twisted state is modified by symmetry breaking. We provide analytical frameworks for properties of the asymmetric states, such as energy, RMS size, and Cazimir invariant, and discuss advantages of the proposed description.
翻訳日:2024-04-04 04:30:18 公開日:2024-03-30
# 言語間の遺伝的関係の類似度テスト

A Likelihood Ratio Test of Genetic Relationship among Languages ( http://arxiv.org/abs/2404.00284v1 )

ライセンス: Link先を確認
V. S. D. S. Mahesh Akavarapu, Arnab Bhattacharya, (参考訳) ある言語群における語彙的類似性は、これらの言語が遺伝的に関連がある可能性があること、すなわち、共通の祖先言語から派生した可能性があることを示している。 しかし、そのような類似性は偶然に起こりうるため、必ずしも基礎となる遺伝的関係を暗示する必要はない。 単語リストの置換と単語類似度に基づく重要度テストが過去に数多く登場し、そのような関係の統計的意義を決定づけた。 既存のテストは、二言語比較、すなわち一対の言語ではうまく機能するが、それらは設計によって実現できないか、あるいは言語群や言語族に適用した場合に偽陽性を生じる傾向があることを実証する。 そこで本研究では, 分子系統学にヒントを得て, 木推論で適用された単語リスト内の不変文字の比率に基づいて, 与えられた言語が関係しているかどうかを判定する確率比テストを提案する。 さらに、いくつかの言語族を評価し、提案したテストが偽陽性の問題を解くことを示す。 最後に、このテストは、NostraticやMacro-Mayanのようなマクロ言語ファミリーの存在を支持することを示す。

Lexical resemblances among a group of languages indicate that the languages could be genetically related, i.e., they could have descended from a common ancestral language. However, such resemblances can arise by chance and, hence, need not always imply an underlying genetic relationship. Many tests of significance based on permutation of wordlists and word similarity measures appeared in the past to determine the statistical significance of such relationships. We demonstrate that although existing tests may work well for bilateral comparisons, i.e., on pairs of languages, they are either infeasible by design or are prone to yield false positives when applied to groups of languages or language families. To this end, inspired by molecular phylogenetics, we propose a likelihood ratio test to determine if given languages are related based on the proportion of invariant character sites in the aligned wordlists applied during tree inference. Further, we evaluate some language families and show that the proposed test solves the problem of false positives. Finally, we demonstrate that the test supports the existence of macro language families such as Nostratic and Macro-Mayan.
翻訳日:2024-04-04 04:30:18 公開日:2024-03-30
# 事前学習モデルの校正による二元ネットワーク上の長期音声認識

Long-Tailed Recognition on Binary Networks by Calibrating A Pre-trained Model ( http://arxiv.org/abs/2404.00285v1 )

ライセンス: Link先を確認
Jihun Kim, Dahyun Kim, Hyungrok Jung, Taeil Oh, Jonghyun Choi, (参考訳) 現実世界のシナリオにディープモデルをデプロイするには、計算効率や実世界の(例えば、長い尾を持つ)データ分散など、多くの課題が伴う。 高リソース効率のバイナリニューラルネットワークをバックボーンとして使用することで、長い尾の分布を学習するという課題に対処する。 具体的には、バランスの取れたデータセットでトレーニングされた既訓練完全精度モデルを用いて、長い尾のデータセット上でバイナリネットワークを学習する際の蒸留の教師として使用するキャリブレート・アンド・ディスティルフレームワークを提案する。 種々のデータセットをより一般化するために,目的関数の項間の新たな対角バランスと,効率的な多分解能学習手法を提案する。 本稿では,既存のバランスの取れたデータセットから新たに抽出した長い尾のデータセットを含む15のデータセットを用いて,文献中で最大の実証研究を行い,提案手法が先行技術より優れていることを示す(平均14.33%)。

Deploying deep models in real-world scenarios entails a number of challenges, including computational efficiency and real-world (e.g., long-tailed) data distributions. We address the combined challenge of learning long-tailed distributions using highly resource-efficient binary neural networks as backbones. Specifically, we propose a calibrate-and-distill framework that uses off-the-shelf pretrained full-precision models trained on balanced datasets to use as teachers for distillation when learning binary networks on long-tailed datasets. To better generalize to various datasets, we further propose a novel adversarial balancing among the terms in the objective function and an efficient multiresolution learning scheme. We conducted the largest empirical study in the literature using 15 datasets, including newly derived long-tailed datasets from existing balanced datasets, and show that our proposed method outperforms prior art by large margins (>14.33% on average).
翻訳日:2024-04-04 04:30:18 公開日:2024-03-30
# 大規模言語モデルを用いた自動脆弱性局所化の実証的研究

An Empirical Study of Automated Vulnerability Localization with Large Language Models ( http://arxiv.org/abs/2404.00287v1 )

ライセンス: Link先を確認
Jian Zhang, Chong Wang, Anran Li, Weisong Sun, Cen Zhang, Wei Ma, Yang Liu, (参考訳) 最近、AVL(Automated Vulnerability Localization)が注目され、脆弱性の発見に責任があるコードの行をピンポイントすることで、診断を容易にすることを目指している。 大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。 本研究では, AVL のための LLM の総合的研究を行う。 調査では,ChatGPTやさまざまなオープンソースモデルなど,コード解析に適した10以上のLLMを,エンコーダのみ,エンコーダのみ,デコーダのみ,モデルサイズが60Mから16Bの3種類のアーキテクチャタイプに分類した。 ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。 評価フレームワークは,C/C++用のBigVulベースのデータセットと,スマートコントラクトの脆弱性を含む追加データセットに適用する。 その結果,LLM の識別的微調整は既存の AVL の学習手法を著しく上回り,他のパラダイムはタスクに対して効果が低かったり,予期せぬほど非効率であったりすることがわかった。 また、エンコーダとデコーダの微調整プロセスにおいて、入力長と一方向コンテキストに関連する課題を特定する。 次に、スライディングウィンドウと右前方埋め込みという2つの改善戦略を導入し、どちらも性能を大幅に向上させる。 さらに,本研究は,CWE(Common Weakness Enumerations)と異なるプロジェクトにわたるLCMの特定の一般化能力を強調し,脆弱性ローカライゼーションの実用化への道筋を示す。

Recently, Automated Vulnerability Localization (AVL) has attracted much attention, aiming to facilitate diagnosis by pinpointing the lines of code responsible for discovered vulnerabilities. Large Language Models (LLMs) have shown potential in various domains, yet their effectiveness in vulnerability localization remains underexplored. In this work, we perform the first comprehensive study of LLMs for AVL. Our investigation encompasses 10+ leading LLMs suitable for code analysis, including ChatGPT and various open-source models, across three architectural types: encoder-only, encoder-decoder, and decoder-only, with model sizes ranging from 60M to 16B parameters. We explore the efficacy of these LLMs using 4 distinct paradigms: zero-shot learning, one-shot learning, discriminative fine-tuning, and generative fine-tuning. Our evaluation framework is applied to the BigVul-based dataset for C/C++, and an additional dataset comprising smart contract vulnerabilities. The results demonstrate that discriminative fine-tuning of LLMs can significantly outperform existing learning-based methods for AVL, while other paradigms prove less effective or unexpectedly ineffective for the task. We also identify challenges related to input length and unidirectional context in fine-tuning processes for encoders and decoders. We then introduce two remedial strategies: the sliding window and the right-forward embedding, both of which substantially enhance performance. Furthermore, our findings highlight certain generalization capabilities of LLMs across Common Weakness Enumerations (CWEs) and different projects, indicating a promising pathway toward their practical application in vulnerability localization.
翻訳日:2024-04-04 04:30:18 公開日:2024-03-30
# 画像復元のための周波数プロンプトガイド変換器

Seeing the Unseen: A Frequency Prompt Guided Transformer for Image Restoration ( http://arxiv.org/abs/2404.00288v1 )

ライセンス: Link先を確認
Shihao Zhou, Jinshan Pan, Jinglei Shi, Duosheng Chen, Lishen Qu, Jufeng Yang, (参考訳) 深部画像復元モデルの指針となる画像から有用な特徴を探索する方法は、画像復元を効果的に解く方法である。 画像内の空間的関係をプロンプトとして抽出するのとは対照的に, 異なる周波数の特性が無視され, さらに微妙で検出不能なアーチファクトが復元された画像に残されているのに対して, FProと呼ばれる周波数プロンプト画像復元法が開発され, それらの相違点に対処するために, 周波数パースペクティブコンポーネントを効果的に提供することができる。 具体的には、入力特徴を動的に学習したフィルタにより、まず周波数部分に分解し、カーネル内の低情報要素を抑えるゲーティング機構を導入する。 そこで我々は,低周波プロンプト変調器 (LPM) と高周波プロンプト変調器 (HPM) の2つのプロンプトブロックを提案し,それぞれ異なる帯域からの信号を処理する。 各変調器は、抽出された周波数マップにプロンプト成分を組み込む生成工程と、デコーダ特徴のガイダンスでプロンプト特徴を変更する変調部とを含む。 一般的なベンチマークによる実験結果から,デライニング,デラインドロップ,ディシエリング,デブロアリング,デヘイズを含む5つの画像修復タスクにおいて,SOTA法に対するパイプラインの性能が良好であることが確認された。 ソースコードと事前トレーニングされたモデルはhttps://github.com/joshyZhou/FPro.comで入手できる。

How to explore useful features from images as prompts to guide the deep image restoration models is an effective way to solve image restoration. In contrast to mining spatial relations within images as prompt, which leads to characteristics of different frequencies being neglected and further remaining subtle or undetectable artifacts in the restored image, we develop a Frequency Prompting image restoration method, dubbed FPro, which can effectively provide prompt components from a frequency perspective to guild the restoration model address these differences. Specifically, we first decompose input features into separate frequency parts via dynamically learned filters, where we introduce a gating mechanism for suppressing the less informative elements within the kernels. To propagate useful frequency information as prompt, we then propose a dual prompt block, consisting of a low-frequency prompt modulator (LPM) and a high-frequency prompt modulator (HPM), to handle signals from different bands respectively. Each modulator contains a generation process to incorporate prompting components into the extracted frequency maps, and a modulation part that modifies the prompt feature with the guidance of the decoder features. Experimental results on commonly used benchmarks have demonstrated the favorable performance of our pipeline against SOTA methods on 5 image restoration tasks, including deraining, deraindrop, demoir\'eing, deblurring, and dehazing. The source code and pre-trained models will be available at https://github.com/joshyZhou/FPro.
翻訳日:2024-04-04 04:30:18 公開日:2024-03-30
# LAKE-RED:潜在背景知識検索拡散によるカモフラージュ画像の生成

LAKE-RED: Camouflaged Images Generation by Latent Background Knowledge Retrieval-Augmented Diffusion ( http://arxiv.org/abs/2404.00292v1 )

ライセンス: Link先を確認
Pancheng Zhao, Peng Xu, Pengda Qin, Deng-Ping Fan, Zhicheng Zhang, Guoli Jia, Bowen Zhou, Jufeng Yang, (参考訳) カモフラージュされた視覚知覚は、多くの実用的な応用において重要な視覚課題である。 高価な収集とラベル付けコストのため、このコミュニティはデータセットの種分類が少数の対象種に限られているという大きなボトルネックに直面している。 しかし、既存のカモフラージュ生成法では、手動でバックグラウンドを指定する必要があるため、カモフラージュされたサンプルの多様性を低コストで拡張できない。 本稿では,カモフラージュ画像生成のための潜在背景知識検索拡散(LAKE-RED)を提案する。 1) 背景入力を受信する必要のないカモフラージュ生成パラダイムを提案する。 2) LAKE-REDは, カモフラージュ生成のための解釈可能性を持つ最初の知識検索拡張手法であり, タスク固有の課題を軽減するために, 知識検索と推論の強化を明示的に分離する考え方を提案する。 さらに,本手法は特定の前景的対象や背景に限らず,より多様な領域に視知覚を拡大する可能性がある。 実験の結果,提案手法は既存の手法よりも優れ,よりリアルなカモフラージュ画像を生成することがわかった。

Camouflaged vision perception is an important vision task with numerous practical applications. Due to the expensive collection and labeling costs, this community struggles with a major bottleneck that the species category of its datasets is limited to a small number of object species. However, the existing camouflaged generation methods require specifying the background manually, thus failing to extend the camouflaged sample diversity in a low-cost manner. In this paper, we propose a Latent Background Knowledge Retrieval-Augmented Diffusion (LAKE-RED) for camouflaged image generation. To our knowledge, our contributions mainly include: (1) For the first time, we propose a camouflaged generation paradigm that does not need to receive any background inputs. (2) Our LAKE-RED is the first knowledge retrieval-augmented method with interpretability for camouflaged generation, in which we propose an idea that knowledge retrieval and reasoning enhancement are separated explicitly, to alleviate the task-specific challenges. Moreover, our method is not restricted to specific foreground targets or backgrounds, offering a potential for extending camouflaged vision perception to more diverse domains. (3) Experimental results demonstrate that our method outperforms the existing approaches, generating more realistic camouflage images.
翻訳日:2024-04-04 04:30:18 公開日:2024-03-30
# TRABSA:Attention-based BiLSTM と Twitter-RoBERTa を用いたつぶやきの解釈型知覚分析

TRABSA: Interpretable Sentiment Analysis of Tweets using Attention-based BiLSTM and Twitter-RoBERTa ( http://arxiv.org/abs/2404.00297v1 )

ライセンス: Link先を確認
Md Abrar Jahin, Md Sakib Hossain Shovon, M. F. Mridha, (参考訳) 感情分析は、世論と消費者行動を理解するために不可欠である。 既存のモデルは言語的多様性、一般化可能性、説明可能性に関する課題に直面している。 本稿では,トランスフォーマーアーキテクチャ,アテンション機構,BiLSTMネットワークを統合したハイブリッドフレームワークTRABSAを提案する。 124万ツイートでトレーニングされたRoBERTaを活用することで、感情分析ベンチマークのギャップを埋め、最先端の精度を確保します。 32か国と米国州のツイートでデータセットを増強し、6つのワード埋め込み技術と3つのレキシコンベースのラベリング技術を比較し、最適な感情分析のためのベストを選択する。 TRABSAは、94%の精度と大幅な精度、リコール、F1スコアゲインで、従来のMLおよびディープラーニングモデルを上回っている。 多様なデータセットに対する評価は、一貫した優位性と一般化性を示している。 SHAPとLIME分析は解釈可能性を高め、予測の信頼性を向上させる。 本研究は,パンデミックの資源管理,資源計画支援,政策形成,ワクチン接種戦略を促進する。

Sentiment analysis is crucial for understanding public opinion and consumer behavior. Existing models face challenges with linguistic diversity, generalizability, and explainability. We propose TRABSA, a hybrid framework integrating transformer-based architectures, attention mechanisms, and BiLSTM networks to address this. Leveraging RoBERTa-trained on 124M tweets, we bridge gaps in sentiment analysis benchmarks, ensuring state-of-the-art accuracy. Augmenting datasets with tweets from 32 countries and US states, we compare six word-embedding techniques and three lexicon-based labeling techniques, selecting the best for optimal sentiment analysis. TRABSA outperforms traditional ML and deep learning models with 94% accuracy and significant precision, recall, and F1-score gains. Evaluation across diverse datasets demonstrates consistent superiority and generalizability. SHAP and LIME analyses enhance interpretability, improving confidence in predictions. Our study facilitates pandemic resource management, aiding resource planning, policy formation, and vaccination tactics.
翻訳日:2024-04-04 04:30:18 公開日:2024-03-30
# 単眼的一眼性顔面反射再建術

Monocular Identity-Conditioned Facial Reflectance Reconstruction ( http://arxiv.org/abs/2404.00301v1 )

ライセンス: Link先を確認
Xingyu Ren, Jiankang Deng, Yuhao Cheng, Jia Guo, Chao Ma, Yichao Yan, Wenhan Zhu, Xiaokang Yang, (参考訳) 近年の3次元顔再構成法は目覚ましい進歩を遂げているが, 単眼の高品質顔反射再建には大きな課題が残っている。 既存の方法は、顔の反射率モデルを学ぶために、大量の光ステージキャプチャーデータに依存している。 しかし、主題の多様性の欠如は、優れた一般化と広範な適用性を達成する上での課題となっている。 本稿では,UV空間ではなく画像空間の反射率を学習し,ID2Reflectanceというフレームワークを提案する。 本フレームワークは,訓練に限られた反射率データを用いながら,単一の画像の反射率マップを直接推定することができる。 我々の重要な洞察は、リフレクタンスデータがRGBの顔と顔構造を共有することである。 私たちはまず、顔の反射率について高品質な事前学習をする。 具体的には、複数ドメインの顔の特徴コードブックを事前訓練し、リフレクタンスとRGBドメインを整列するコードブック融合法を設計する。 そこで本研究では,対象画像からの顔認証を事前学習したオートエンコーダに注入し,音源反射率画像の同一性を変更するアイデンティティ条件付きスワップモジュールを提案する。 最後に,マルチビュースワップされたリフレクタンス画像を縫い合わせ,レンダリング可能なアセットを得る。 広汎な実験により,本手法は優れた一般化能力を示し,最先端の顔反射率再構成結果が得られた。 私たちのプロジェクトページはhttps://xingyuren.github.io/id2reflectance/です。

Recent 3D face reconstruction methods have made remarkable advancements, yet there remain huge challenges in monocular high-quality facial reflectance reconstruction. Existing methods rely on a large amount of light-stage captured data to learn facial reflectance models. However, the lack of subject diversity poses challenges in achieving good generalization and widespread applicability. In this paper, we learn the reflectance prior in image space rather than UV space and present a framework named ID2Reflectance. Our framework can directly estimate the reflectance maps of a single image while using limited reflectance data for training. Our key insight is that reflectance data shares facial structures with RGB faces, which enables obtaining expressive facial prior from inexpensive RGB data thus reducing the dependency on reflectance data. We first learn a high-quality prior for facial reflectance. Specifically, we pretrain multi-domain facial feature codebooks and design a codebook fusion method to align the reflectance and RGB domains. Then, we propose an identity-conditioned swapping module that injects facial identity from the target image into the pre-trained autoencoder to modify the identity of the source reflectance image. Finally, we stitch multi-view swapped reflectance images to obtain renderable assets. Extensive experiments demonstrate that our method exhibits excellent generalization capability and achieves state-of-the-art facial reflectance reconstruction results for in-the-wild faces. Our project page is https://xingyuren.github.io/id2reflectance/.
翻訳日:2024-04-04 04:30:18 公開日:2024-03-30
# エネルギー依存ポテンシャルを持つ閉じ込め量子系における飽和効果

Saturation effect in confined quantum systems with energy-dependent potentials ( http://arxiv.org/abs/2404.00302v1 )

ライセンス: Link先を確認
Ohood Ali AL-Sbaheen, Ahmed Al-Jamel, Mohamed Ghaleb Al-Masaeed, (参考訳) 本稿では,高調波発振器,水素原子,重クォーコニアの3つのポテンシャルを持つ量子モデルのエネルギー・質量スペクトルにおける飽和効果について検討する。 関数に適用される様々な正準点とゲージ変換、$g(x)$を特殊直交関数として既知解の与えられた微分方程式で乗算し、それをシュル{{\"o}}ディンガー型方程式に変換する。 最初の2つのモデルは、よく知られた解 ${}_1 F_1$ の収束超幾何微分に関する方法の実装に由来するが、3番目のモデル(重いクォーコニア)はよく知られた解 ${}_2 F_1$ の超幾何微分に由来する可能性がある。 特に、$c\bar c$ と $b\bar b$ の重いクォーコニア質量スペクトルは飽和パラメータ $\lambda$ の異なる値で生成され、利用可能な実験データと比較される。 これらの系は、エネルギー依存効果を含むと飽和効果を示す可能性がある。

In this paper, we study the saturation effect in the energy or mass spectra of three quantum models with energy-dependent potentials: the harmonic oscillator, the hydrogen atom, and the heavy quarkonia. We used the method proposed in \cite{garcia2009exactly}, which is based on studying various canonical point and gauge transformations applied to a function, $g(x)$, multiplied by a given differential equation of known solutions as special orthogonal functions, that convert it into a Schr{{\"o}}dinger-like equation. The first two models stem from implementing the method on the confluent hypergeometric differential of the well-known solutions ${}_1 F_1$, while the third model (heavy quarkonia) stems possibly from the hypergeometric differential of the well-known solutions ${}_2 F_1$. In particular, the heavy quarkonia mass spectra for both $c\bar c$ and $b\bar b$ are produced at different values of the saturation parameter $\lambda$ and compared with the available experimental data. It is found that these systems may exhibit saturation effect when the energy-dependent effect is included.
翻訳日:2024-04-04 04:30:18 公開日:2024-03-30
# ヘイト音声検出のためのNLPデータ拡張に関する総合的研究:レガシー手法,BERT,LLM

A Comprehensive Study on NLP Data Augmentation for Hate Speech Detection: Legacy Methods, BERT, and LLMs ( http://arxiv.org/abs/2404.00303v1 )

ライセンス: Link先を確認
Md Saroar Jahan, Mourad Oussalah, Djamila Romaissa Beddia, Jhuma kabir Mim, Nabil Arhab, (参考訳) NLPの領域におけるデータ拡張への関心の高まりは、ヘイトスピーチドメインによって引き起こされる課題、ソーシャルメディア語彙のダイナミックな性質、広範囲なトレーニングデータを必要とする大規模ニューラルネットワークの要求に対処する必要性によって引き起こされている。 しかし、データ拡張における語彙置換の一般的な使用は、意図した意味を不注意に変更し、教師付き機械学習モデルの有効性に影響を与える可能性があるとして、懸念が高まっている。 適切なデータ拡張手法を追求するため,Hate Speech DetectionにおけるGPTを含むLarge Language Models (LLM)のような,確立されたレガシーアプローチと現代的プラクティスの両方を探索した。 さらに,BERTに基づくエンコーダモデルと文脈的コサイン類似度フィルタを最適化し,先行する同義語置換法において重要な制約を明らかにすることを提案する。 我々の比較分析は、WordNetとFast-Textの同義語置換、Back-translation、BERT-maskの文脈拡張、LLMの5つの一般的な拡張技術を含んでいる。 5つのベンチマークデータセットから分析したところ、バックトランスレーションのような従来の手法ではラベル変更率が低い(0.3-1.5%)のに対して、BERTベースのコンテキスト同義語は文の多様性を提供するが、ラベル変更率が高い(6%以上)。 提案したBERTによる文脈コサイン類似度フィルタはラベル変更をわずか0.05%に低下させ,その効果を0.7%高いF1性能で証明した。 しかし, GPT-3によるデータ拡張は, 最大7倍のデータ増加によるオーバーフィッティングを回避するだけでなく, 埋め込み空間のカバレッジを15%向上し, F1の分類は従来の手法よりも1.4%向上し, 当社の手法より0.8%向上した。

The surge of interest in data augmentation within the realm of NLP has been driven by the need to address challenges posed by hate speech domains, the dynamic nature of social media vocabulary, and the demands for large-scale neural networks requiring extensive training data. However, the prevalent use of lexical substitution in data augmentation has raised concerns, as it may inadvertently alter the intended meaning, thereby impacting the efficacy of supervised machine learning models. In pursuit of suitable data augmentation methods, this study explores both established legacy approaches and contemporary practices such as Large Language Models (LLM), including GPT in Hate Speech detection. Additionally, we propose an optimized utilization of BERT-based encoder models with contextual cosine similarity filtration, exposing significant limitations in prior synonym substitution methods. Our comparative analysis encompasses five popular augmentation techniques: WordNet and Fast-Text synonym replacement, Back-translation, BERT-mask contextual augmentation, and LLM. Our analysis across five benchmarked datasets revealed that while traditional methods like back-translation show low label alteration rates (0.3-1.5%), and BERT-based contextual synonym replacement offers sentence diversity but at the cost of higher label alteration rates (over 6%). Our proposed BERT-based contextual cosine similarity filtration markedly reduced label alteration to just 0.05%, demonstrating its efficacy in 0.7% higher F1 performance. However, augmenting data with GPT-3 not only avoided overfitting with up to sevenfold data increase but also improved embedding space coverage by 15% and classification F1 score by 1.4% over traditional methods, and by 0.8% over our method.
翻訳日:2024-04-04 04:30:18 公開日:2024-03-30
# Intelligent Recommenderシステムを第1ステップのレジリエンス尺度として活用する -- データ駆動サプライチェーン破壊応答フレームワーク

Leveraging Intelligent Recommender system as a first step resilience measure -- A data-driven supply chain disruption response framework ( http://arxiv.org/abs/2404.00306v1 )

ライセンス: Link先を確認
Yang Hu, (参考訳) サプライチェーンのレジリエンス(SCRes)を高めるためのデジタル技術の可能性に対する関心は、業界4.0と世界的なパンデミックに光を当てている。 Recommender System(RS)をサプライチェーン(SC)レジリエンス指標として活用することは無視されるが、RSは反応性面からSCレジリエンスを高めるための有効なツールである。 そこで本研究では,インテリジェントレコメンデータシステム技術に基づくデータ駆動型サプライチェーンディスラプション応答フレームワークを提案し,実例による概念モデルの有効性を検証した。 以上の結果から,本フレームワークは,第1の応答フレーズにおいて有効なSC破壊緩和尺度として実装可能であり,SC破壊後の反応性能の向上に有効であることが示唆された。

Interests in the value of digital technologies for its potential uses to increase supply chain resilience (SCRes) are increasing in light to the industry 4.0 and the global pandemic. Utilization of Recommender systems (RS) as a supply chain (SC) resilience measure is neglected although RS is a capable tool to enhance SC resilience from a reactive aspect. To address this problem, this research proposed a novel data-driven supply chain disruption response framework based on the intelligent recommender system techniques and validated the conceptual model through a practical use case. Results show that our framework can be implemented as an effective SC disruption mitigation measure in the very first response phrase and help SC participants get better reaction performance after the SC disruption.
翻訳日:2024-04-04 04:30:18 公開日:2024-03-30
# ST-LLM:大規模言語モデルは効果的な時間学習者である

ST-LLM: Large Language Models Are Effective Temporal Learners ( http://arxiv.org/abs/2404.00308v1 )

ライセンス: Link先を確認
Ruyang Liu, Chen Li, Haoran Tang, Yixiao Ge, Ying Shan, Ge Li, (参考訳) 大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示し、ビデオレベルでの人間とAIの相互作用を促進するためのビデオLLMの研究を促進する。 しかし,ビデオベースの対話システムにおいて,映像を効果的にエンコードし,理解する方法は未解決である。 本稿では,全時空間トークンをLLMに供給し,ビデオシーケンスモデリングのタスクをLLMに委譲できるか,という,単純だが未解明の質問について検討する。 驚くべきことに、この単純なアプローチは、ビデオ理解の大幅な改善をもたらす。 そこで本研究では,LLM内の空間時間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。 さらに,LLM内の非圧縮ビデオトークンがもたらすオーバーヘッドと安定性の問題に対処するため,我々はテーラーメイドのトレーニング目標を用いた動的マスキング戦略を開発した。 特に長いビデオでは、効率と効率のバランスをとるために、グローバルなローカルな入力モジュールも設計しました。 その結果,LLMは空間時間モデリングに有効であり,効率と安定性を保ちながら有効であることがわかった。 本手法の有効性を実験的に検証した。 より簡潔なモデルとトレーニングパイプラインを通じて、ST-LLMはVideoChatGPT-BenchとMVBenchで、最先端の新たな結果を確立する。 コードはhttps://github.com/TencentARC/ST-LLM.comで公開されている。

Large Language Models (LLMs) have showcased impressive capabilities in text comprehension and generation, prompting research efforts towards video LLMs to facilitate human-AI interaction at the video level. However, how to effectively encode and understand videos in video-based dialogue systems remains to be solved. In this paper, we investigate a straightforward yet unexplored question: Can we feed all spatial-temporal tokens into the LLM, thus delegating the task of video sequence modeling to the LLMs? Surprisingly, this simple approach yields significant improvements in video understanding. Based upon this, we propose ST-LLM, an effective video-LLM baseline with Spatial-Temporal sequence modeling inside LLM. Furthermore, to address the overhead and stability issues introduced by uncompressed video tokens within LLMs, we develop a dynamic masking strategy with tailor-made training objectives. For particularly long videos, we have also designed a global-local input module to balance efficiency and effectiveness. Consequently, we harness LLM for proficient spatial-temporal modeling, while upholding efficiency and stability. Extensive experimental results attest to the effectiveness of our method. Through a more concise model and training pipeline, ST-LLM establishes a new state-of-the-art result on VideoChatGPT-Bench and MVBench. Codes have been available at https://github.com/TencentARC/ST-LLM.
翻訳日:2024-04-04 04:30:18 公開日:2024-03-30
# 価格4SaaS:SaaSの運用を促進するための価格モデル

Pricing4SaaS: Towards a pricing model to drive the operation of SaaS ( http://arxiv.org/abs/2404.00311v1 )

ライセンス: Link先を確認
Alejandro García-Fernández, José Antonio Parejo, Antonio Ruiz-Cortés, (参考訳) Software as a Service(SaaS)モデルは、価格構造とサブスクリプションを利用して利益を得る配布およびライセンスモデルである。 このような構造を利用することで、情報システム(IS)は、柔軟性とスケーラビリティを改善しながら、さまざまなクライアントニーズを満たすことができます。 しかし、価格が戦略的決定や市場動向、技術進歩といったビジネス要因に影響されるため、変動性管理の複雑さが増す。 本稿では、価格駆動型ISエンジニアリングのビジョンを実現するために、Software as a Service(SaaS)ライセンスモデルを適用するシステムの価格構造を一般化した仕様モデルであるPricing4SaaSを第一歩として紹介する。 証明された表現力によって、16の異なるポピュラーなSaaSシステムの表現を通じて実証されたPrice4SaaSは、価格駆動のISエンジニアリングの基盤になることを目指している。

The Software as a Service (SaaS) model is a distribution and licensing model that leverages pricing structures and subscriptions to profit. The utilization of such structures allows Information Systems (IS) to meet a diverse range of client needs, while offering improved flexibility and scalability. However, they increase the complexity of variability management, as pricings are influenced by business factors, like strategic decisions, market trends or technological advancements. In pursuit of realizing the vision of pricing-driven IS engineering, this paper introduces Pricing4SaaS as a first step, a generalized specification model for the pricing structures of systems that apply the Software as a Service (SaaS) licensing model. With its proven expressiveness, demonstrated through the representation of 16 distinct popular SaaS systems, Pricing4SaaS aims to become the cornerstone of pricing-driven IS engineering.
翻訳日:2024-04-04 04:30:18 公開日:2024-03-30
# ローショット画像分類のための事前学習モデルのベイズ探索

Bayesian Exploration of Pre-trained Models for Low-shot Image Classification ( http://arxiv.org/abs/2404.00312v1 )

ライセンス: Link先を確認
Yibo Miao, Yu Lei, Feng Zhou, Zhijie Deng, (参考訳) ローショット画像分類はコンピュータビジョンの基本的な課題であり、CLIPのような大規模視覚言語モデルの出現は、この分野における研究の最前線を大いに前進させてきた。 しかし、既存のCLIPベースのほとんどのメソッドは、CLIPとは異なる知識を含む、トレーニング済みの他のモデルを有効に組み込む柔軟性を欠いている。 このギャップを埋めるために,ガウス過程に基づくシンプルで効果的な確率的モデルアンサンブルフレームワークを提案する。 事前学習モデル上に構築された深層カーネルのアンサンブルを用いて,CLIPとカーネル関数の平均関数を指定することにより,事前知識の統合を実現する。 分類ラベルを直接回帰することにより,解析的推論,不確実性定量化,原理的ハイパーパラメータチューニングが可能となる。 標準ベンチマークの広範な実験を通じて,本手法が予測性能に関する競争アンサンブルベースラインを一貫して上回っていることを示す。 さらに, アウト・オブ・ディストリビューション・データセットを用いて, 提案手法のロバスト性と, 得られた不確実性評価の質を評価する。 また,提案手法はラベル回帰に依存してはいるものの,ほとんどの決定論的ベースラインよりも優れたモデルキャリブレーションを享受していることを示す。

Low-shot image classification is a fundamental task in computer vision, and the emergence of large-scale vision-language models such as CLIP has greatly advanced the forefront of research in this field. However, most existing CLIP-based methods lack the flexibility to effectively incorporate other pre-trained models that encompass knowledge distinct from CLIP. To bridge the gap, this work proposes a simple and effective probabilistic model ensemble framework based on Gaussian processes, which have previously demonstrated remarkable efficacy in processing small data. We achieve the integration of prior knowledge by specifying the mean function with CLIP and the kernel function with an ensemble of deep kernels built upon various pre-trained models. By regressing the classification label directly, our framework enables analytical inference, straightforward uncertainty quantification, and principled hyper-parameter tuning. Through extensive experiments on standard benchmarks, we demonstrate that our method consistently outperforms competitive ensemble baselines regarding predictive performance. Additionally, we assess the robustness of our method and the quality of the yielded uncertainty estimates on out-of-distribution datasets. We also illustrate that our method, despite relying on label regression, still enjoys superior model calibration compared to most deterministic baselines.
翻訳日:2024-04-04 04:20:26 公開日:2024-03-30
# 光と暗さの調和: 事前誘導データ合成と夜間フレア除去のための適応焦点のシンフォニー

Harmonizing Light and Darkness: A Symphony of Prior-guided Data Synthesis and Adaptive Focus for Nighttime Flare Removal ( http://arxiv.org/abs/2404.00313v1 )

ライセンス: Link先を確認
Lishen Qu, Shihao Zhou, Jinshan Pan, Jinglei Shi, Duosheng Chen, Jufeng Yang, (参考訳) インセンス光源は、夜間に撮影画像にフレアを発生させることが多く、視覚的品質を劣化させ、下流の用途に悪影響を及ぼす。 効果的なフレア除去ネットワークをトレーニングするためには、信頼できるデータセットが不可欠である。 主流のフレア除去データセットは、人間の労力を減らすために半合成であるが、これらのデータセットは複数の散乱フレアを含む典型的なシナリオをカバーしていない。 この問題に対処するために、フレアの明るさが照明法則に従属するマルチフレア画像を含むFrare7K*という先行誘導データセットを合成する。 さらに、フレアは画像の局所的な領域を占有する傾向にあるが、既存のネットワークは画像全体に対してフレア除去を行い、時にクリーンな領域を誤って修正する。 そこで本稿では, クリーンな背景領域を適応的に隠蔽し, フレアの影響を受けやすい領域にフォーカスするモデルを支援するための, プラグイン・アンド・プレイ適応型フォーカスモジュール(AFM)を提案する。 大規模な実験により,我々のデータ合成手法は実世界のシーンをより良くシミュレートできることが示された。

Intense light sources often produce flares in captured images at night, which deteriorates the visual quality and negatively affects downstream applications. In order to train an effective flare removal network, a reliable dataset is essential. The mainstream flare removal datasets are semi-synthetic to reduce human labour, but these datasets do not cover typical scenarios involving multiple scattering flares. To tackle this issue, we synthesize a prior-guided dataset named Flare7K*, which contains multi-flare images where the brightness of flares adheres to the laws of illumination. Besides, flares tend to occupy localized regions of the image but existing networks perform flare removal on the entire image and sometimes modify clean areas incorrectly. Therefore, we propose a plug-and-play Adaptive Focus Module (AFM) that can adaptively mask the clean background areas and assist models in focusing on the regions severely affected by flares. Extensive experiments demonstrate that our data synthesis method can better simulate real-world scenes and several models equipped with AFM achieve state-of-the-art performance on the real-world test dataset.
翻訳日:2024-04-04 04:20:25 公開日:2024-03-30
# 手続き的に生成された3次元シーン表現による大規模言語と視覚モデルを用いたロボットによる見えない環境の探索

Exploring Unseen Environments with Robots using Large Language and Vision Models through a Procedurally Generated 3D Scene Representation ( http://arxiv.org/abs/2404.00318v1 )

ライセンス: Link先を確認
Arjun P S, Andrew Melnik, Gora Chand Nandi, (参考訳) 生成人工知能の最近の進歩、特にLVLM(Large Language Models)とLVLM(Large Vision Language Models)の領域では、ロボットシステムにおける認知プランナーの活用が期待されている。 この研究は、人間の認知を模倣してタスク固有の情報に参画し、知覚し、保存し、同じ方法で計画を作成することによって、目標ナビゲーション問題を解決することに焦点を当てている。 本稿では,Large Language Models (LLMs) とLarge Vision Language Models (LVLMs) の能力を生かして,オブジェクトの探索に慣れない環境を探索できる包括的フレームワークを提案する。 LLMを使ってハイレベルなサブゴールを生成する場合の課題は、ロボットの周囲の環境を効率的に表現することである。 本稿では,LLMにタスク関連情報を提供するために,オブジェクトを意味的にリッチに記述した3次元シーンのモジュラー表現を提案する。 しかし、LLMに大量のコンテキスト情報(リッチな3Dシーンセマンティック表現)を提供することは、冗長で非効率な計画につながる可能性がある。 我々は、文脈内学習の能力を活用して、無関係な目標固有情報を抽出するLLMベースのプルーナーを提案する。

Recent advancements in Generative Artificial Intelligence, particularly in the realm of Large Language Models (LLMs) and Large Vision Language Models (LVLMs), have enabled the prospect of leveraging cognitive planners within robotic systems. This work focuses on solving the object goal navigation problem by mimicking human cognition to attend, perceive and store task specific information and generate plans with the same. We introduce a comprehensive framework capable of exploring an unfamiliar environment in search of an object by leveraging the capabilities of Large Language Models(LLMs) and Large Vision Language Models (LVLMs) in understanding the underlying semantics of our world. A challenging task in using LLMs to generate high level sub-goals is to efficiently represent the environment around the robot. We propose to use a 3D scene modular representation, with semantically rich descriptions of the object, to provide the LLM with task relevant information. But providing the LLM with a mass of contextual information (rich 3D scene semantic representation), can lead to redundant and inefficient plans. We propose to use an LLM based pruner that leverages the capabilities of in-context learning to prune out irrelevant goal specific information.
翻訳日:2024-04-04 04:20:25 公開日:2024-03-30
# 痛み認識におけるマルチモーダルデータ融合の促進:統計的相関と人間中心の視点を活用した戦略

Advancing Multimodal Data Fusion in Pain Recognition: A Strategy Leveraging Statistical Correlation and Human-Centered Perspectives ( http://arxiv.org/abs/2404.00320v1 )

ライセンス: Link先を確認
Xingrui Gu, Zhixuan Wang, Irisa Jin, Zekun Wu, (参考訳) 本研究は、特定の行動認識のための異種データを痛み認識領域に組み込むことに挑戦し、統計的相関と人間中心のアプローチを調和させる新しい手法を提案する。 多様なディープラーニングアーキテクチャを活用することで、さまざまな複雑なシナリオにおけるモデルパフォーマンスの改善におけるアプローチの適用性と有効性を強調します。 提案手法の新規性は,統計的関連度重みの戦略的導入と,人間中心の観点からのモダリティの分節化,モデル精度の向上,マルチモーダルデータの説明可能な分析を提供することである。 本研究は、痛み行動分析の強化において、データ多様性とカスタマイズされたモダリティセグメンテーションの役割を強調することにより、従来のモダリティ融合技術を超えている。 それぞれのモダリティに適合するフレームワークを、統計的意義に基づいて、適切な分類器で導入することにより、カスタマイズされた正確なマルチモーダル融合戦略への移行を示唆する。 私たちの貢献は、モダリティ融合と人間中心のコンピューティングアプリケーションに対する新たな洞察を提供することによって、痛み認識の分野を超えて、説明可能なAIと患者中心の医療介入の促進に寄与します。 そこで我々は,マルチモーダルデータの有効かつ解釈可能な融合において,重要な空白を橋渡しし,痛み行動認識および同盟分野における新たな問い合わせ基準を確立する。

This research tackles the challenge of integrating heterogeneous data for specific behavior recognition within the domain of Pain Recognition, presenting a novel methodology that harmonizes statistical correlations with a human-centered approach. By leveraging a diverse range of deep learning architectures, we highlight the adaptability and efficacy of our approach in improving model performance across various complex scenarios. The novelty of our methodology is the strategic incorporation of statistical relevance weights and the segmentation of modalities from a human-centric perspective, enhancing model precision and providing a explainable analysis of multimodal data. This study surpasses traditional modality fusion techniques by underscoring the role of data diversity and customized modality segmentation in enhancing pain behavior analysis. Introducing a framework that matches each modality with an suited classifier, based on the statistical significance, signals a move towards customized and accurate multimodal fusion strategies. Our contributions extend beyond the field of Pain Recognition by delivering new insights into modality fusion and human-centered computing applications, contributing towards explainable AI and bolstering patient-centric healthcare interventions. Thus, we bridge a significant void in the effective and interpretable fusion of multimodal data, establishing a novel standard for forthcoming inquiries in pain behavior recognition and allied fields.
翻訳日:2024-04-04 04:20:25 公開日:2024-03-30
# 手術映像理解のための機器間相互作用検出フレームワーク

Instrument-tissue Interaction Detection Framework for Surgical Video Understanding ( http://arxiv.org/abs/2404.00322v1 )

ライセンス: Link先を確認
Wenjun Lin, Yan Hu, Huazhu Fu, Mingming Yang, Chin-Boon Chng, Ryo Kawasaki, Cheekong Chui, Jiang Liu, (参考訳) 手術活動の理解を支援する機器間相互作用検出タスクは,コンピュータ支援手術システムの構築には不可欠だが,多くの課題がある。 第一に、ほとんどのモデルは、分類のみに焦点を絞った粗い方法で、楽器と組織を自動で検出する能力に欠ける、計器間の相互作用を表す。 第二に、既存の作品では、楽器と組織のフレーム内と組織間の関係を十分に考慮していない。 そこで本論文では,<instrument class, instrument bounding box, tissue class, tissue bounding box, action class> quintupleとして計器間相互作用を表現し,手術ビデオ理解のための計器間相互作用検出ネットワーク(ITIDNet)を提案する。 具体的には,Snippet Consecutive Feature (SCF) レイヤを提案し,ビデオスニペット内の大域的コンテキスト情報を用いて,現在のフレームにおける提案の関係をモデル化することによって機能を強化する。 また、隣接フレーム間の空間符号化による提案の特徴を取り入れた空間対応注意層(SCA)を提案する。 楽器と組織間の関係を推論するために、同じフレーム内の楽器と組織間の関係と、同じインスタンスの時間情報をモデル化するためのフレーム間関係を利用するための時間グラフ(TG)層が提案されている。 評価のために,白内障手術ビデオ(PhacoQ)データセットと胆嚢摘出手術ビデオ(CholecQ)データセットを構築した。 実験の結果,両データセットにおける他の最先端モデルよりも優れた性能を示すことができた。

Instrument-tissue interaction detection task, which helps understand surgical activities, is vital for constructing computer-assisted surgery systems but with many challenges. Firstly, most models represent instrument-tissue interaction in a coarse-grained way which only focuses on classification and lacks the ability to automatically detect instruments and tissues. Secondly, existing works do not fully consider relations between intra- and inter-frame of instruments and tissues. In the paper, we propose to represent instrument-tissue interaction as <instrument class, instrument bounding box, tissue class, tissue bounding box, action class> quintuple and present an Instrument-Tissue Interaction Detection Network (ITIDNet) to detect the quintuple for surgery videos understanding. Specifically, we propose a Snippet Consecutive Feature (SCF) Layer to enhance features by modeling relationships of proposals in the current frame using global context information in the video snippet. We also propose a Spatial Corresponding Attention (SCA) Layer to incorporate features of proposals between adjacent frames through spatial encoding. To reason relationships between instruments and tissues, a Temporal Graph (TG) Layer is proposed with intra-frame connections to exploit relationships between instruments and tissues in the same frame and inter-frame connections to model the temporal information for the same instance. For evaluation, we build a cataract surgery video (PhacoQ) dataset and a cholecystectomy surgery video (CholecQ) dataset. Experimental results demonstrate the promising performance of our model, which outperforms other state-of-the-art models on both datasets.
翻訳日:2024-04-04 04:20:25 公開日:2024-03-30
# 数ショットOOD検出のためのCLIP駆動型アウトリアス合成

CLIP-driven Outliers Synthesis for few-shot OOD detection ( http://arxiv.org/abs/2404.00323v1 )

ライセンス: Link先を確認
Hao Sun, Rundong He, Zhongyi Han, Zhicong Lin, Yongshun Gong, Yilong Yin, (参考訳) OOD検出は、トレーニング中に目に見えないクラスに属するオフ・オブ・ディストリビューション(OOD)画像の認識に重点を置いており、少数のラベル付きイン・ディストリビューション(ID)画像のみを使用する。 今のところ、主要な戦略はCLIPのような大規模ビジョン言語モデルに基づいている。 しかし、これらの手法は、信頼性の高いOOD監視情報の欠如により、流通内(ID)とOODの境界に偏りが生じるという重大な問題を見落としている。 この問題に対処するため,CLIP-driven Outliers Synthesis~(CLIP-OS)を提案する。 第一に、CLIP-OSは、新しく提案されたパッチ均一な畳み込みによりパッチレベルの特徴の知覚を高め、CLIP-surgery-discrepancyを用いてID関連情報の比率を適応的に取得し、ID関連とID関連情報の分離を実現する。 次に、CLIP-OSは、異なるクラスからID関連機能を混合して信頼性の高いOODデータを合成し、OOD監視情報を提供する。 その後、CLIP-OSは未知のプロンプト学習による合成OODサンプルを活用し、IDとOODの分離性を高める。 複数のベンチマークにわたる大規模な実験により、CLIP-OSはより優れた数発のOOD検出能力を達成することが示された。

Few-shot OOD detection focuses on recognizing out-of-distribution (OOD) images that belong to classes unseen during training, with the use of only a small number of labeled in-distribution (ID) images. Up to now, a mainstream strategy is based on large-scale vision-language models, such as CLIP. However, these methods overlook a crucial issue: the lack of reliable OOD supervision information, which can lead to biased boundaries between in-distribution (ID) and OOD. To tackle this problem, we propose CLIP-driven Outliers Synthesis~(CLIP-OS). Firstly, CLIP-OS enhances patch-level features' perception by newly proposed patch uniform convolution, and adaptively obtains the proportion of ID-relevant information by employing CLIP-surgery-discrepancy, thus achieving separation between ID-relevant and ID-irrelevant. Next, CLIP-OS synthesizes reliable OOD data by mixing up ID-relevant features from different classes to provide OOD supervision information. Afterward, CLIP-OS leverages synthetic OOD samples by unknown-aware prompt learning to enhance the separability of ID and OOD. Extensive experiments across multiple benchmarks demonstrate that CLIP-OS achieves superior few-shot OOD detection capability.
翻訳日:2024-04-04 04:20:25 公開日:2024-03-30
# YNetr:Plain Scan Liver tumors (PSLT)上のデュアルエンコーダアーキテクチャ

YNetr: Dual-Encoder architecture on Plain Scan Liver Tumors (PSLT) ( http://arxiv.org/abs/2404.00327v1 )

ライセンス: Link先を確認
Wen Sheng, Zhong Zheng, Jiajun Liu, Han Lu, Hanyuan Zhang, Zhengyong Jiang, Zhihong Zhang, Daoping Zhu, (参考訳) 背景:肝腫瘍は良性または悪性の可能性がある肝臓の異常な増殖であり、肝がんは世界中で重要な健康上の問題となっている。 しかし、肝腫瘍の平滑なスキャンセグメンテーションのためのデータセットは存在せず、関連するアルゴリズムも存在しない。 このギャップを埋めるために,Plain Scan Liver tumors (PSLT) と YNetr を提案する。 方法:40個の肝腫瘍平板スキャンセグメンテーションデータセットを収集し,注釈を付した。 同時に,YNetrが生成したセグメント化結果を評価する指標としてDice係数を用いた。 結果: YNetrモデルはPSLTデータセット上で62.63%のDice係数を達成した。 UNet 3+, XNet, UNetr, Swin UNetr, Trans-BTS, COTr, nnUNetv2 (2D), nnUNetv2 (3D fullres), MedNext (2D), MedNext (3D fullres) など,様々なモデルに対して比較評価を行った。 結論:我々はPSLT(Plain Scan Liver tumors)というデータセットを提案するだけでなく,ウェーブレット変換を用いてPSLTにSOTAを持つ異なる周波数情報を抽出するYNetrという構造も検討した。

Background: Liver tumors are abnormal growths in the liver that can be either benign or malignant, with liver cancer being a significant health concern worldwide. However, there is no dataset for plain scan segmentation of liver tumors, nor any related algorithms. To fill this gap, we propose Plain Scan Liver Tumors(PSLT) and YNetr. Methods: A collection of 40 liver tumor plain scan segmentation datasets was assembled and annotated. Concurrently, we utilized Dice coefficient as the metric for assessing the segmentation outcomes produced by YNetr, having advantage of capturing different frequency information. Results: The YNetr model achieved a Dice coefficient of 62.63% on the PSLT dataset, surpassing the other publicly available model by an accuracy margin of 1.22%. Comparative evaluations were conducted against a range of models including UNet 3+, XNet, UNetr, Swin UNetr, Trans-BTS, COTr, nnUNetv2 (2D), nnUNetv2 (3D fullres), MedNext (2D) and MedNext(3D fullres). Conclusions: We not only proposed a dataset named PSLT(Plain Scan Liver Tumors), but also explored a structure called YNetr that utilizes wavelet transform to extract different frequency information, which having the SOTA in PSLT by experiments.
翻訳日:2024-04-04 04:20:25 公開日:2024-03-30
# メモリ拡張性と簡易関数型マップ学習

Memory-Scalable and Simplified Functional Map Learning ( http://arxiv.org/abs/2404.00330v1 )

ライセンス: Link先を確認
Robin Magnet, Maks Ovsjanikov, (参考訳) 近年,非剛体形状マッチング問題に対する学習ベースフレームワークとして,深層関数マップが登場している。 この領域の初期の手法は機能領域の学習にのみ焦点をあてていたが、最新の手法は関数マップと点マップの整合性を促進することによって精度が大幅に向上することを示した。 残念ながら、既存のアプローチは、ソフトポイントワイズマップから生じる大きな高密度行列の計算に大きく依存しており、効率とスケーラビリティを損なう。 この制限に対処するため、我々は新しいメモリスケール可能で効率的な関数型地図学習パイプラインを導入する。 関数マップの特定の構造を利用することで、メモリにポイントワイズマップを格納することなく、同じ結果が得られる可能性を提供します。 さらに,本手法を応用して,既存の公理的精錬アルゴリズムを応用した微分可能な地図精錬層を提案する。 このアルゴリズムを後処理のステップで使用する多くの関数型マップ学習方法とは異なり、列車時に容易に使用することができ、改良されたマップと初期バージョンの一貫性を強制することができる。 我々のアプローチは、線形システムによる微分を避けながら、挑戦的なシナリオで最先端に近づきながら、よりシンプルで、より効率的で、より数値的に安定である。

Deep functional maps have emerged in recent years as a prominent learning-based framework for non-rigid shape matching problems. While early methods in this domain only focused on learning in the functional domain, the latest techniques have demonstrated that by promoting consistency between functional and pointwise maps leads to significant improvements in accuracy. Unfortunately, existing approaches rely heavily on the computation of large dense matrices arising from soft pointwise maps, which compromises their efficiency and scalability. To address this limitation, we introduce a novel memory-scalable and efficient functional map learning pipeline. By leveraging the specific structure of functional maps, we offer the possibility to achieve identical results without ever storing the pointwise map in memory. Furthermore, based on the same approach, we present a differentiable map refinement layer adapted from an existing axiomatic refinement algorithm. Unlike many functional map learning methods, which use this algorithm at a post-processing step, ours can be easily used at train time, enabling to enforce consistency between the refined and initial versions of the map. Our resulting approach is both simpler, more efficient and more numerically stable, by avoiding differentiation through a linear system, while achieving close to state-of-the-art results in challenging scenarios.
翻訳日:2024-04-04 04:20:25 公開日:2024-03-30
# 画像マッチングのためのクリックによるトリマップの聴取

Learing Trimaps via Clicks for Image Matting ( http://arxiv.org/abs/2404.00335v1 )

ライセンス: Link先を確認
Chenyi Zhang, Yihan Hu, Henghui Ding, Humphrey Shi, Yao Zhao, Yunchao Wei, (参考訳) 画像マッチングの大幅な進歩にもかかわらず、既存のモデルは自然画像のシナリオにおいて正確な結果を得るために手書きのトリマップに大きく依存している。 しかし、トリマップを取得するプロセスには時間がかかり、ユーザフレンドリさやデバイスとの互換性が欠如している。 この依存は、すべてのトリマップベースのマット方式の実践的応用を著しく制限する。 Click2Trimapは,ユーザが最小限のクリック入力で高品質なトリマップとアルファ行列を予測できる対話型モデルである。 実ユーザの行動論理とトリマップの特徴を解析することにより,Click2Trimapは様々なシナリオにまたがって,強力な反復型3クラストレーニング戦略と専用シミュレーション関数を提案する。 合成および実世界のマッティングデータセットの定量的および定性評価は、Click2Trimapが既存のすべてのトリマップフリーマッティング手法と比較して優れた性能を示した。 特にユーザスタディにおいて、Click2Trimapは、画像あたり平均5秒で高品質なトリマップとマッチング予測を実現し、現実世界のアプリケーションにおいてその実質的な価値を示している。

Despite significant advancements in image matting, existing models heavily depend on manually-drawn trimaps for accurate results in natural image scenarios. However, the process of obtaining trimaps is time-consuming, lacking user-friendliness and device compatibility. This reliance greatly limits the practical application of all trimap-based matting methods. To address this issue, we introduce Click2Trimap, an interactive model capable of predicting high-quality trimaps and alpha mattes with minimal user click inputs. Through analyzing real users' behavioral logic and characteristics of trimaps, we successfully propose a powerful iterative three-class training strategy and a dedicated simulation function, making Click2Trimap exhibit versatility across various scenarios. Quantitative and qualitative assessments on synthetic and real-world matting datasets demonstrate Click2Trimap's superior performance compared to all existing trimap-free matting methods. Especially, in the user study, Click2Trimap achieves high-quality trimap and matting predictions in just an average of 5 seconds per image, demonstrating its substantial practical value in real-world applications.
翻訳日:2024-04-04 04:20:25 公開日:2024-03-30
# ホロニック協調生産におけるオントロジー-知識の共有と交換の解法

Ontology in Holonic Cooperative Manufacturing: A Solution to Share and Exchange the Knowledge ( http://arxiv.org/abs/2404.00341v1 )

ライセンス: Link先を確認
Ahmed R. Sadik, Bodo Urban, (参考訳) 協調生産は、協調ロボットの存在に依存している産業の新しいトレンドである。 協調ロボットは通常、共有作業環境において人間の同僚と安全に操作できる軽量ロボットである。 この協力の間、協調ロボットと作業員の間で大量の情報を交換する。 この情報は、生産要素と環境を記述する協調生産知識を構成する。 本研究では, オントロジーの概念を用いて協調生産の知識を表現するホロニック制御法を提案する。 ホロニック制御ソリューションは、オントロジーモデルに基づいて製造知識を交換する自律マルチエージェントシステムとして実装される。 最終的に、この研究は、2人の労働者と1人の協力ロボットが協力してカスタマイズされた製品を組み立てる、協調的な組立シナリオに対して提案された解決策を図示し、実装する。

Cooperative manufacturing is a new trend in industry, which depends on the existence of a collaborative robot. A collaborative robot is usually a light-weight robot which is capable of operating safely with a human co-worker in a shared work environment. During this cooperation, a vast amount of information is exchanged between the collaborative robot and the worker. This information constructs the cooperative manufacturing knowledge, which describes the production components and environment. In this research, we propose a holonic control solution, which uses the ontology concept to represent the cooperative manufacturing knowledge. The holonic control solution is implemented as an autonomous multi-agent system that exchanges the manufacturing knowledge based on an ontology model. Ultimately, the research illustrates and implements the proposed solution over a cooperative assembly scenario, which involves two workers and one collaborative robot, whom cooperate together to assemble a customized product.
翻訳日:2024-04-04 04:20:25 公開日:2024-03-30
# 2層中性原子のハイパーエンタングル付きペアを用いたエンタングルメントスワッピング

Entanglement Swapping Using Hyperentangled Pairs of Two-Level Neutral Atoms ( http://arxiv.org/abs/2404.00342v1 )

ライセンス: Link先を確認
Sajal Hasan, Syed M. Arslan, Muhammad Imran, Rameez-ul Islam, Saif Al-Kuwari, Tasawar Abbas, (参考訳) ハイパー・エンタングルド・スワッピング(Hyperentangled swapping)は、複数の自由度で絡み合った量子状態であるハイパー・エンタングルド・ステートの交換を含む、セキュアで効率的な量子情報転送を可能にする量子通信技術である。 本稿では,原子ブラッグ回折の数学的枠組みを通した原子対間のハイパーエンタングルメントスワップのスキームを実証し,デコヒーレンスに強く抵抗し,より優れた総合忠実度を持つ決定論的結果をもたらす。 利用された空洞は重畳状態にあり、入ってくる原子と共鳴的に相互作用する。 キャビティによって運ばれる量子情報は、2レベル補助原子との共鳴相互作用によって交換される。 また,遅延選択シナリオ下での絡み合いスワッピングについても論じ,複数のキュービットシナリオをカバーするスキーマ的一般化を提供する。 最後に,提案手法の実験的実現可能性を示すための具体的な実験パラメータを紹介する。

Hyperentangled swapping is a quantum communication technique that involves the exchange of hyperentangled states, which are quantum states entangled in multiple degrees of freedom, to enable secure and efficient quantum information transfer. In this paper, we demonstrate schematics for the hyperentanglement swapping between separate pairs of neutral atoms through the mathematical framework of atomic Bragg diffraction, which is efficient and resistant to decoherence, yielding deterministic results with superior overall fidelity. The utilized cavities are in superposition state and interact with the incoming atoms off-resonantly. Quantum information carried by the cavities is swapped through resonant interactions with two-level auxiliary atoms. We also discuss entanglement swapping under a delayed-choice scenario and provide a schematic generalization covering multiple-qubit scenarios. Finally, we introduce specific experimental parameters to demonstrate the experimental feasibility of the scheme.
翻訳日:2024-04-04 04:20:25 公開日:2024-03-30
# LLMのマスター数学は可能か? 数学スタック交換に基づく大規模言語モデルの検討

Can LLMs Master Math? Investigating Large Language Models on Math Stack Exchange ( http://arxiv.org/abs/2404.00344v1 )

ライセンス: Link先を確認
Ankit Satpute, Noah Giessing, Andre Greiner-Petter, Moritz Schubotz, Olaf Teschke, Akiko Aizawa, Bela Gipp, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な能力を示し、しばしば人間のものを上回るパフォーマンスを達成する。 これらの進歩にもかかわらず、数学の領域は、その特殊構造とそれが要求する精度のために、顕著な挑戦を示す。 本研究では,数理問題に対するLLMの習熟度を調べるための2段階のアプローチを採用した。 まず,最も効果的なLCMを用いて,Math Stack Exchange (MSE) から78問の回答を生成する。 第2に,手動評価による回答の質と正確性に着目し,最高性能を示したLCMの事例分析を行った。 その結果, GPT-4は, P@10を考慮したArqMATH3 Task1において, 数学的な疑問に答え, 現状の最良のアプローチよりも優れており, 既存のLLMの中で, 最良(0.48, P@10, 0.37)であることがわかった。 ケース分析では,GPT-4は特定の事例で関連性のある応答を生成できるが,全ての質問に対して常に正確に答えられるわけではない。 本稿では、複雑な数学的問題解決をナビゲートする上でのLLMの限界について考察する。 ケース分析を通じて、我々は数学におけるLLM能力のギャップに光を当て、AI駆動の数学的推論における将来の研究と進歩のステージを設定した。 コードと研究成果を公開しています。 \url{https://github.com/gipplab/LLM-Investig-MathStackExchange}

Large Language Models (LLMs) have demonstrated exceptional capabilities in various natural language tasks, often achieving performances that surpass those of humans. Despite these advancements, the domain of mathematics presents a distinctive challenge, primarily due to its specialized structure and the precision it demands. In this study, we adopted a two-step approach for investigating the proficiency of LLMs in answering mathematical questions. First, we employ the most effective LLMs, as identified by their performance on math question-answer benchmarks, to generate answers to 78 questions from the Math Stack Exchange (MSE). Second, a case analysis is conducted on the LLM that showed the highest performance, focusing on the quality and accuracy of its answers through manual evaluation. We found that GPT-4 performs best (nDCG of 0.48 and P@10 of 0.37) amongst existing LLMs fine-tuned for answering mathematics questions and outperforms the current best approach on ArqMATH3 Task1, considering P@10. Our Case analysis indicates that while the GPT-4 can generate relevant responses in certain instances, it does not consistently answer all questions accurately. This paper explores the current limitations of LLMs in navigating complex mathematical problem-solving. Through case analysis, we shed light on the gaps in LLM capabilities within mathematics, thereby setting the stage for future research and advancements in AI-driven mathematical reasoning. We make our code and findings publicly available for research: \url{https://github.com/gipplab/LLM-Investig-MathStackExchange}
翻訳日:2024-04-04 04:20:25 公開日:2024-03-30
# MaGRITTe: 画像, 概要, テキストからの操作型, 生成型3D実現

MaGRITTe: Manipulative and Generative 3D Realization from Image, Topview and Text ( http://arxiv.org/abs/2404.00345v1 )

ライセンス: Link先を確認
Takayuki Hara, Tatsuya Harada, (参考訳) ユーザ特定条件からの3Dシーンの生成は、3Dアプリケーションの生産負担を軽減するための有望な道を提供する。 以前の研究では、限られた制御条件のため、望まれるシーンを実現するためにかなりの努力が必要だった。 部分画像,トップビューに表現されたレイアウト情報,テキストプロンプトを用いて,マルチモーダル条件下での3Dシーンの制御と生成を行う手法を提案する。 これらの条件を組み合わせて3Dシーンを生成するには,(1)大きなデータセットの作成,(2)マルチモーダル条件の相互作用の反映,(3)レイアウト条件のドメイン依存性など,大きな課題がある。 我々は,3次元シーン生成の過程を,所定の条件から2次元画像生成と2次元画像から3次元シーン生成に分解する。 2次元画像生成は、トレーニング済みのテキスト・ツー・イメージモデルを、部分的な画像とレイアウトの小さな人工的なデータセットで微調整し、レイアウト条件の深度推定とニューラル・ラディアンス・フィールド(NeRF)により3次元シーン生成を実現し、大規模なデータセットの作成を避ける。 360度画像を用いた空間情報の共通表現を用いることで、マルチモーダル状態の相互作用を考慮し、レイアウト制御の領域依存性を低減することができる。 実験により, 室内から屋外までの多様な領域において, マルチモーダル条件で3次元シーンを生成できることを定量的に, 定量的に検証した。

The generation of 3D scenes from user-specified conditions offers a promising avenue for alleviating the production burden in 3D applications. Previous studies required significant effort to realize the desired scene, owing to limited control conditions. We propose a method for controlling and generating 3D scenes under multimodal conditions using partial images, layout information represented in the top view, and text prompts. Combining these conditions to generate a 3D scene involves the following significant difficulties: (1) the creation of large datasets, (2) reflection on the interaction of multimodal conditions, and (3) domain dependence of the layout conditions. We decompose the process of 3D scene generation into 2D image generation from the given conditions and 3D scene generation from 2D images. 2D image generation is achieved by fine-tuning a pretrained text-to-image model with a small artificial dataset of partial images and layouts, and 3D scene generation is achieved by layout-conditioned depth estimation and neural radiance fields (NeRF), thereby avoiding the creation of large datasets. The use of a common representation of spatial information using 360-degree images allows for the consideration of multimodal condition interactions and reduces the domain dependence of the layout control. The experimental results qualitatively and quantitatively demonstrated that the proposed method can generate 3D scenes in diverse domains, from indoor to outdoor, according to multimodal conditions.
翻訳日:2024-04-04 04:20:25 公開日:2024-03-30
# SGDFormer: クロススペクトルステレオ画像案内用ワンステージトランスフォーマーベースアーキテクチャ

SGDFormer: One-stage Transformer-based Architecture for Cross-Spectral Stereo Image Guided Denoising ( http://arxiv.org/abs/2404.00349v1 )

ライセンス: Link先を確認
Runmin Zhang, Zhu Yu, Zehua Sheng, Jiacheng Ying, Si-Yuan Cao, Shu-Jie Chen, Bailin Yang, Junwei Li, Hui-Liang Shen, (参考訳) 可視光を誘導するクロススペクトル画像は、近赤外画像を用いて可視光の遮音過程を案内するなど、鮮明な画像をリッチなディテールで復元する大きな可能性を示している。 このような画像対を得るには、モバイルデバイスで広く使われているステレオシステムを利用することが実現可能で経済的方法である。 現在の作業では、2つの画像間の格差を処理するために、アライメントされたガイダンス画像の生成を試みる。 しかし, 咬合, スペクトル差, ノイズ劣化などにより, 一致した誘導画像は一般にゴーストやアーティファクトが存在するため, 不満足な判断結果となる。 そこで本稿では,SGDFormer という一段トランスフォーマベースアーキテクチャを,クロススペクトルステレオ画像ガイドデノイングのためのアーキテクチャとして提案する。 このアーキテクチャは、ステレオ画像の対応モデリングと特徴融合を統合ネットワークに統合する。 我々の変圧器ブロックは、ノイズロストクロスアテンション(NRCA)モジュールと空間変化型特徴融合(SVFF)モジュールを含む。 NRCAモジュールは、ノイズの干渉を軽減するために、2つの画像の長距離対応を粗い方法でキャプチャする。 SVFFモジュールは、より健全な構造を強化し、有用な情報を動的に選択することで有害なアーティファクトを抑制する。 SGDFormerは、上記の設計により、微細な構造でアーチファクトフリーなイメージを復元し、さまざまなデータセット上で最先端のパフォーマンスを実現する。 さらに、我々のSGDFormerは、ガイドされた深度超解像のような他の非整合のクロスモデルガイド付き復元タスクを扱うように拡張できる。

Cross-spectral image guided denoising has shown its great potential in recovering clean images with rich details, such as using the near-infrared image to guide the denoising process of the visible one. To obtain such image pairs, a feasible and economical way is to employ a stereo system, which is widely used on mobile devices. Current works attempt to generate an aligned guidance image to handle the disparity between two images. However, due to occlusion, spectral differences and noise degradation, the aligned guidance image generally exists ghosting and artifacts, leading to an unsatisfactory denoised result. To address this issue, we propose a one-stage transformer-based architecture, named SGDFormer, for cross-spectral Stereo image Guided Denoising. The architecture integrates the correspondence modeling and feature fusion of stereo images into a unified network. Our transformer block contains a noise-robust cross-attention (NRCA) module and a spatially variant feature fusion (SVFF) module. The NRCA module captures the long-range correspondence of two images in a coarse-to-fine manner to alleviate the interference of noise. The SVFF module further enhances salient structures and suppresses harmful artifacts through dynamically selecting useful information. Thanks to the above design, our SGDFormer can restore artifact-free images with fine structures, and achieves state-of-the-art performance on various datasets. Additionally, our SGDFormer can be extended to handle other unaligned cross-model guided restoration tasks such as guided depth super-resolution.
翻訳日:2024-04-04 04:20:25 公開日:2024-03-30
# カーネルレース条件を見つけるための文脈知覚・外乱に基づく静的解析

A Context-Sensitive, Outlier-Based Static Analysis to Find Kernel Race Conditions ( http://arxiv.org/abs/2404.00350v1 )

ライセンス: Link先を確認
Niels Dossche, Bert Abrath, Bart Coppens, (参考訳) 競合条件は、共有リソースへの同時アクセスが互いに保護されない、ソフトウェアの一連のバグである。 競合条件の結果として、特権のエスカレーション、サービス拒否、メモリの破損などがあり、任意のコード実行につながる可能性がある。 しかし、大規模なコードベースでは、どのフィールドにアクセスするべきかという正確なルールがある。 フィールドアクセスのロック方法のルールを推論し,これらのルールに対してコードをチェックする,新しい静的手法を提案する。 競合状態を検出する従来の静的アナライザは、ロックセット解析に基づいている。 代わりに,文脈に敏感なメカニズムで拡張されたアウトリアベースの手法を提案する。 我々はこの解析をLLIFで実装し、Linux v5.14.11で不正に保護されたフィールドアクセスを見つけるために評価した。 本研究は,レース条件の発見能力について徹底的に評価し,偽陽性報告の原因について検討する。 さらに、問題のサブセットを報告し、パッチを提出しました。 メンテナは24のバグを確認した。

Race conditions are a class of bugs in software where concurrent accesses to shared resources are not protected from each other. Consequences of race conditions include privilege escalation, denial of service, and memory corruption which can potentially lead to arbitrary code execution. However, in large code bases the exact rules as to which fields should be accessed under which locks are not always clear. We propose a novel static technique that infers rules for how field accesses should be locked, and then checks the code against these rules. Traditional static analysers for detecting race conditions are based on lockset analysis. Instead, we propose an outlier-based technique enhanced with a context-sensitive mechanism that scales well. We have implemented this analysis in LLIF, and evaluated it to find incorrectly protected field accesses in Linux v5.14.11. We thoroughly evaluate its ability to find race conditions, and study the causes for false positive reports. In addition, we reported a subset of the issues and submitted patches. The maintainers confirmed 24 bugs.
翻訳日:2024-04-04 04:20:25 公開日:2024-03-30
# 全スライディング画像分類におけるアテンションに基づく複数インスタンス学習の再考:インスタンス属性の観点から

Rethinking Attention-Based Multiple Instance Learning for Whole-Slide Pathological Image Classification: An Instance Attribute Viewpoint ( http://arxiv.org/abs/2404.00351v1 )

ライセンス: Link先を確認
Linghan Cai, Shenjin Huang, Ye Zhang, Jinpeng Lu, Yongbing Zhang, (参考訳) マルチプル・インスタンス・ラーニング(MIL)は、スライドレベルラベルでギガピクセル分解能画像を処理するWSI解析のための堅牢なパラダイムである。 先駆的な取り組みとして、臨床診断と腫瘍局在の同時処理の特徴から、注意ベースのMIL(ABMIL)とその変異体が人気を博している。 しかし、注意機構は、しばしば組織を誤って分類し、潜在的にMIL性能を損なうインスタンス間の識別に限界を示す。 本稿では,これらの問題に対処する属性駆動型MIL(AttriMIL)フレームワークを提案する。 具体的には、ABMILの計算過程を解析し、各インスタンスのバッグ予測への寄与を効果的に測定し、インスタンス属性を定量化する属性スコアリング機構を提案する。 属性の定量化に基づいて,スライド内およびスライド間におけるモデルインスタンス相関に対する空間属性制約と属性ランキング制約を開発する。 これらの制約により、ネットワークはインスタンスの空間的相関とセマンティックな類似性を捉え、AttriMILの組織型を識別し、困難なインスタンスを識別する能力を向上させることができる。 さらに、AttriMILは、病理学的特徴の収集のために、トレーニング済みモデルの特徴抽出能力を最大化する、組織学的適応バックボーンを使用している。 3つの公開ベンチマークに関する大規模な実験は、AttriMILが既存の最先端フレームワークを複数の評価指標で上回っていることを示している。 実装コードはhttps://github.com/MedCAI/AttriMILで公開されている。

Multiple instance learning (MIL) is a robust paradigm for whole-slide pathological image (WSI) analysis, processing gigapixel-resolution images with slide-level labels. As pioneering efforts, attention-based MIL (ABMIL) and its variants are increasingly becoming popular due to the characteristics of simultaneously handling clinical diagnosis and tumor localization. However, the attention mechanism exhibits limitations in discriminating between instances, which often misclassifies tissues and potentially impairs MIL performance. This paper proposes an Attribute-Driven MIL (AttriMIL) framework to address these issues. Concretely, we dissect the calculation process of ABMIL and present an attribute scoring mechanism that measures the contribution of each instance to bag prediction effectively, quantifying instance attributes. Based on attribute quantification, we develop a spatial attribute constraint and an attribute ranking constraint to model instance correlations within and across slides, respectively. These constraints encourage the network to capture the spatial correlation and semantic similarity of instances, improving the ability of AttriMIL to distinguish tissue types and identify challenging instances. Additionally, AttriMIL employs a histopathology adaptive backbone that maximizes the pre-trained model's feature extraction capability for collecting pathological features. Extensive experiments on three public benchmarks demonstrate that our AttriMIL outperforms existing state-of-the-art frameworks across multiple evaluation metrics. The implementation code is available at https://github.com/MedCAI/AttriMIL.
翻訳日:2024-04-04 04:10:32 公開日:2024-03-30
# 一般化を効果的に改善するためのランダムウェイト摂動の再検討

Revisiting Random Weight Perturbation for Efficiently Improving Generalization ( http://arxiv.org/abs/2404.00357v1 )

ライセンス: Link先を確認
Tao Li, Qinghua Tao, Weihao Yan, Zehao Lei, Yingwen Wu, Kun Fang, Mingzhen He, Xiaolin Huang, (参考訳) 現代のディープニューラルネットワーク(DNN)の一般化能力の向上は、機械学習における根本的な課題である。 シャープネス認識最小化(SAM)によって導かれる2つの手法は、対向重み摂動(AWP)による最悪のケースの周辺損失を最小化し、一方はランダム重み摂動(RWP)によりベイズ目標を最小化する。 RWPは計算の利点があり、数学的にAWPと密接に結びついているが、その経験的性能はAWPよりずっと遅れている。 本稿では、一般化を改善するためにRWPの使用を再考し、2つの観点から改善を提案する。 一 一般化と収束のトレードオフ 二 ランダムな摂動発生 広範に実験を行った結果,拡張RWP法は,特に大規模問題において,特に一般化の効率化に有効であり,SAMに匹敵する性能や優れた性能を提供することが示された。 コードはhttps://github.com/nblt/mARWP.comで公開されている。

Improving the generalization ability of modern deep neural networks (DNNs) is a fundamental challenge in machine learning. Two branches of methods have been proposed to seek flat minima and improve generalization: one led by sharpness-aware minimization (SAM) minimizes the worst-case neighborhood loss through adversarial weight perturbation (AWP), and the other minimizes the expected Bayes objective with random weight perturbation (RWP). While RWP offers advantages in computation and is closely linked to AWP on a mathematical basis, its empirical performance has consistently lagged behind that of AWP. In this paper, we revisit the use of RWP for improving generalization and propose improvements from two perspectives: i) the trade-off between generalization and convergence and ii) the random perturbation generation. Through extensive experimental evaluations, we demonstrate that our enhanced RWP methods achieve greater efficiency in enhancing generalization, particularly in large-scale problems, while also offering comparable or even superior performance to SAM. The code is released at https://github.com/nblt/mARWP.
翻訳日:2024-04-04 04:10:32 公開日:2024-03-30
# 腕を広げる:ラジアル・ストリップ・トランスフォーマー

Spread Your Wings: A Radial Strip Transformer for Image Deblurring ( http://arxiv.org/abs/2404.00358v1 )

ライセンス: Link先を確認
Duosheng Chen, Shihao Zhou, Jinshan Pan, Jinglei Shi, Lishen Qu, Jufeng Yang, (参考訳) 動き情報の探索は、動きを損なう作業において重要である。 近年、ウィンドウベースのトランスフォーマーアプローチは、画像劣化において優れた性能を達成している。 ぼやけた結果を引き起こす動きは通常、変換運動と回転運動と、ウィンドウベーストランスフォーマーによるカルト座標系におけるウィンドウシフト操作から成り、直交方向の変換運動を直接探索する。 したがって、これらの手法は回転部をモデル化する限界がある。 この問題を緩和するために、回転運動と翻訳情報を一緒に探索する角度と距離を持つ極座標変換器を導入する。 本稿では, カルト型ではなく極座標系でぼやけた画像を復元する変換器ベースアーキテクチャであるラジアルストリップ変換器(RST)を提案する。 RSTは、ラジアル変形可能な畳み込みによって浅い特徴を抽出する動的ラジアル埋め込みモジュール(DRE)を含む。 我々は、変形可能な畳み込みのオフセットを生成するために極マスク層を設計し、半径に沿って畳み込みカーネルを変形させ、回転運動情報をよりよく捉えることができる。 さらに,深部特徴抽出法として放射状ストリップアテンションソルバ (RSAS) を提案し,窓の関係を方位と半径で整理した。 本発明の注目モジュールは、極座標における画像特徴を重み付けするための放射状ストリップウィンドウを含み、鋭い画像の回復のために、回転及び翻訳動作においてより有用な情報を共に保存する。 6つの合成と実世界のデータセットによる実験結果から,本手法が他のSOTA法に対して有効であることを示す。

Exploring motion information is important for the motion deblurring task. Recent the window-based transformer approaches have achieved decent performance in image deblurring. Note that the motion causing blurry results is usually composed of translation and rotation movements and the window-shift operation in the Cartesian coordinate system by the window-based transformer approaches only directly explores translation motion in orthogonal directions. Thus, these methods have the limitation of modeling the rotation part. To alleviate this problem, we introduce the polar coordinate-based transformer, which has the angles and distance to explore rotation motion and translation information together. In this paper, we propose a Radial Strip Transformer (RST), which is a transformer-based architecture that restores the blur images in a polar coordinate system instead of a Cartesian one. RST contains a dynamic radial embedding module (DRE) to extract the shallow feature by a radial deformable convolution. We design a polar mask layer to generate the offsets for the deformable convolution, which can reshape the convolution kernel along the radius to better capture the rotation motion information. Furthermore, we proposed a radial strip attention solver (RSAS) as deep feature extraction, where the relationship of windows is organized by azimuth and radius. This attention module contains radial strip windows to reweight image features in the polar coordinate, which preserves more useful information in rotation and translation motion together for better recovering the sharp images. Experimental results on six synthesis and real-world datasets prove that our method performs favorably against other SOTA methods for the image deblurring task.
翻訳日:2024-04-04 04:10:32 公開日:2024-03-30
# 連続ステレオマッチングのための再利用可能なアーキテクチャ成長

Reusable Architecture Growth for Continual Stereo Matching ( http://arxiv.org/abs/2404.00360v1 )

ライセンス: Link先を確認
Chenghao Zhang, Gaofeng Meng, Bin Fan, Kun Tian, Zhaoxiang Zhang, Shiming Xiang, Chunhong Pan, (参考訳) 最近の立体深度推定モデルの顕著な性能は、畳み込みニューラルネットワークによる密接な格差の緩和に成功している。 ほとんどのタスクと同様に、デプロイ時に多数の異種シーンをカバーするトレーニングデータを集める必要がある。 しかし、トレーニングサンプルは通常、実践的な応用において継続的に取得され、新しいシーンを継続的に学習する能力はさらに重要になる。 そこで本研究では,モデルにタスクを課す連続ステレオマッチングを提案する。 1)新しい場面を継続的に学習する。 2)先行学習シーンの忘れを克服し、 3)推論において相違を連続的に予測する。 我々は、再利用可能なアーキテクチャ成長(RAG)フレームワークを導入することで、この目標を達成する。 RAGはタスク固有のニューラルネットワーク検索とアーキテクチャの成長を活用して、教師付きと自己管理の両方の方法で新しいシーンを継続的に学習する。 良好な性能を得ながら、前のユニットを再利用することで、成長中の高い再利用性を維持することができる。 さらに、推論時にシーン固有のアーキテクチャパスを適応的に選択するScene Routerモジュールを提案する。 多くのデータセットに関する総合的な実験により、我々のフレームワークは様々な天候、道路、都市状況において顕著に機能し、より困難なクロスデータセット設定において最先端の手法を超越していることが示された。 さらに,エンド・ツー・エンドのステレオアーキテクチャ学習と実践的展開を容易にするため,本手法のシーンへの適応性を実証した。

The remarkable performance of recent stereo depth estimation models benefits from the successful use of convolutional neural networks to regress dense disparity. Akin to most tasks, this needs gathering training data that covers a number of heterogeneous scenes at deployment time. However, training samples are typically acquired continuously in practical applications, making the capability to learn new scenes continually even more crucial. For this purpose, we propose to perform continual stereo matching where a model is tasked to 1) continually learn new scenes, 2) overcome forgetting previously learned scenes, and 3) continuously predict disparities at inference. We achieve this goal by introducing a Reusable Architecture Growth (RAG) framework. RAG leverages task-specific neural unit search and architecture growth to learn new scenes continually in both supervised and self-supervised manners. It can maintain high reusability during growth by reusing previous units while obtaining good performance. Additionally, we present a Scene Router module to adaptively select the scene-specific architecture path at inference. Comprehensive experiments on numerous datasets show that our framework performs impressively in various weather, road, and city circumstances and surpasses the state-of-the-art methods in more challenging cross-dataset settings. Further experiments also demonstrate the adaptability of our method to unseen scenes, which can facilitate end-to-end stereo architecture learning and practical deployment.
翻訳日:2024-04-04 04:10:32 公開日:2024-03-30
# 低リソースオープンドメイン対話生成のための大言語モデルによる可制御・多言語データ拡張

Controllable and Diverse Data Augmentation with Large Language Model for Low-Resource Open-Domain Dialogue Generation ( http://arxiv.org/abs/2404.00361v1 )

ライセンス: Link先を確認
Zhenhua Liu, Tong Zhu, Jianxiang Xiang, Wenliang Chen, (参考訳) データ拡張(DA)は、低リソースのオープンドメイン対話生成におけるモデルの不安定性と過度に適合する問題を緩和するために重要である。 しかし、従来のDAメソッドは意味データの多様性を無視し、全体的な品質を制限します。 近年,大規模言語モデル (LLM) は多種多様な対話を生成するためにDAに使われている。 しかし、制御性は限られており、種子対話と比較して分布シフトを伴う対話を生成する傾向がある。 拡張の多様性を最大化し、制御可能性の問題に対処するために、LLM (SDA) を用いた \textbf{S}ummary-based \textbf{D}ialogue \textbf{A}ugmentation を提案する。 提案手法は,対話要約を計画ツールとして利用することにより,LCMの制御性を向上させる。 要約に基づいて、SDAは小さなシードデータセットであっても、高品質で多様な対話データを生成することができる。 オープンドメイン対話におけるデータ拡張手法の有効性を評価するために,拡張対話データの意味的多様性を特徴付けるクラスタリングに基づくメトリクスを設計した。 実験結果から、SDAは、小さなシードデータセットとLLMが与えられた高品質で意味的に多様な対話を増強でき、拡張データによりオープンドメイン対話モデルの性能が向上することが示された。

Data augmentation (DA) is crucial to mitigate model training instability and over-fitting problems in low-resource open-domain dialogue generation. However, traditional DA methods often neglect semantic data diversity, restricting the overall quality. Recently, large language models (LLM) have been used for DA to generate diversified dialogues. However, they have limited controllability and tend to generate dialogues with a distribution shift compared to the seed dialogues. To maximize the augmentation diversity and address the controllability problem, we propose \textbf{S}ummary-based \textbf{D}ialogue \textbf{A}ugmentation with LLM (SDA). Our approach enhances the controllability of LLM by using dialogue summaries as a planning tool. Based on summaries, SDA can generate high-quality and diverse dialogue data even with a small seed dataset. To evaluate the efficacy of data augmentation methods for open-domain dialogue, we designed a clustering-based metric to characterize the semantic diversity of the augmented dialogue data. The experimental results show that SDA can augment high-quality and semantically diverse dialogues given a small seed dataset and an LLM, and the augmented data can boost the performance of open-domain dialogue models.
翻訳日:2024-04-04 04:10:32 公開日:2024-03-30
# STBA:クエリ制限されたブラックボックスシナリオに対するDNNのロバスト性評価に向けて

STBA: Towards Evaluating the Robustness of DNNs for Query-Limited Black-box Scenario ( http://arxiv.org/abs/2404.00362v1 )

ライセンス: Link先を確認
Renyang Liu, Kwok-Yan Lam, Wei Zhou, Sixing Wu, Jun Zhao, Dongting Hu, Mingming Gong, (参考訳) DNNの脆弱性を探究し、その堅牢性を改善するために多くの攻撃手法が提案されている。 最近の大きな進歩にもかかわらず、既存のブラックボックス攻撃手法は、望ましい摂動を最適化するために大量のクエリを必要とするため、未だに不満足なパフォーマンスに悩まされている。 その他の重要な課題は、ノイズ付加方式で構築された敵の例が異常であり、小さな摂動に対する敵の訓練によって強靭性を高めるロバストモデルへの攻撃に苦慮していることである。 上記の2つの問題が暴露のリスクを大幅に増加させ、結果としてDNNの脆弱性を深く掘り下げることに失敗することは間違いない。 したがって、DNNの脆弱性をクエリ制限設定下において、付加的でない方法で十分に評価する必要がある。 本稿では,問合せ制限シナリオにおいて,予測可能な敵の例を作成するための新しいフレームワークであるSpatial Transform Black-box Attack (STBA)を提案する。 特に、STBAは、クリーン画像の高周波部分に流れ場を導入し、敵の例を生成し、以下の2つのプロセスを採用して、自然性を高め、クエリ効率を大幅に改善する。 a) クリーン画像の高周波部分に推定フロー場を適用して、良画像に外部ノイズを導入するのではなく、逆例を生成する。 b) クエリ制限条件下での理想的な流れ場を最適化するために, サンプルのバッチに基づく効率的な勾配推定手法を利用する。 既存のスコアベースのブラックボックスベースラインと比較して、STBAは敵のサンプルの認識不能性を効果的に改善し、クエリ制限された設定下での攻撃成功率を大幅に向上できることを示した。

Many attack techniques have been proposed to explore the vulnerability of DNNs and further help to improve their robustness. Despite the significant progress made recently, existing black-box attack methods still suffer from unsatisfactory performance due to the vast number of queries needed to optimize desired perturbations. Besides, the other critical challenge is that adversarial examples built in a noise-adding manner are abnormal and struggle to successfully attack robust models, whose robustness is enhanced by adversarial training against small perturbations. There is no doubt that these two issues mentioned above will significantly increase the risk of exposure and result in a failure to dig deeply into the vulnerability of DNNs. Hence, it is necessary to evaluate DNNs' fragility sufficiently under query-limited settings in a non-additional way. In this paper, we propose the Spatial Transform Black-box Attack (STBA), a novel framework to craft formidable adversarial examples in the query-limited scenario. Specifically, STBA introduces a flow field to the high-frequency part of clean images to generate adversarial examples and adopts the following two processes to enhance their naturalness and significantly improve the query efficiency: a) we apply an estimated flow field to the high-frequency part of clean images to generate adversarial examples instead of introducing external noise to the benign image, and b) we leverage an efficient gradient estimation method based on a batch of samples to optimize such an ideal flow field under query-limited settings. Compared to existing score-based black-box baselines, extensive experiments indicated that STBA could effectively improve the imperceptibility of the adversarial examples and remarkably boost the attack success rate under query-limited settings.
翻訳日:2024-04-04 04:10:32 公開日:2024-03-30
# 幾何認識学習によるロボットライチーハーベスティングの正確な切削点推定

Accurate Cutting-point Estimation for Robotic Lychee Harvesting through Geometry-aware Learning ( http://arxiv.org/abs/2404.00364v1 )

ライセンス: Link先を確認
Gengming Zhang, Hao Cao, Kewei Hu, Yaoqiang Pan, Yuqin Deng, Hongjun Wang, Hanwen Kang, (参考訳) 果樹園環境におけるライチーピッキングポイントの正確な同定と,その座標位置の取得は,ライチーピッキングロボットの成功に不可欠である。 しかし、従来の2次元画像に基づく物体検出法は、枝、葉、果実の複雑な幾何学的構造のためにしばしば苦労し、リチーピックポイントの誤った決定に繋がる。 本研究では,Fcaf3d-lycheeネットワークモデルを提案する。 自然環境におけるライチーピックポイントのポイントクラウドデータは、マルチビューステッチによってMicrosoftのAzure Kinect DK(Time-of-light)カメラを使用して取得される。 我々は、人間の視覚的注意機構を利用して、ライチーピックポイントの特徴抽出を改善したフルコンボリューショナルアンカーフリー3Dオブジェクト検出(Fcaf3d)モデルを、圧縮励起(SE)モジュールで拡張する。 トレーニングされたネットワークモデルは、ライチーピッキングの試験セットで評価され、88.57%の印象的なF1スコアを達成し、既存のモデルを大幅に上回っている。 その後の3次元(3D)位置検出により、実際のライチー果樹園環境におけるピッキングポイントの精度が向上し、オクルージョンの度合いが変化しても精度は向上する。 リチーピック点の局所化誤差は、全ての方向において1.5cm以内であり、モデルの堅牢性と一般性を示す。

Accurately identifying lychee-picking points in unstructured orchard environments and obtaining their coordinate locations is critical to the success of lychee-picking robots. However, traditional two-dimensional (2D) image-based object detection methods often struggle due to the complex geometric structures of branches, leaves and fruits, leading to incorrect determination of lychee picking points. In this study, we propose a Fcaf3d-lychee network model specifically designed for the accurate localisation of lychee picking points. Point cloud data of lychee picking points in natural environments are acquired using Microsoft's Azure Kinect DK time-of-flight (TOF) camera through multi-view stitching. We augment the Fully Convolutional Anchor-Free 3D Object Detection (Fcaf3d) model with a squeeze-and-excitation(SE) module, which exploits human visual attention mechanisms for improved feature extraction of lychee picking points. The trained network model is evaluated on a test set of lychee-picking locations and achieves an impressive F1 score of 88.57%, significantly outperforming existing models. Subsequent three-dimensional (3D) position detection of picking points in real lychee orchard environments yields high accuracy, even under varying degrees of occlusion. Localisation errors of lychee picking points are within 1.5 cm in all directions, demonstrating the robustness and generality of the model.
翻訳日:2024-04-04 04:10:32 公開日:2024-03-30
# 自律走行における状況認識のための効率的なマルチブランチセグメンテーションネットワーク

Efficient Multi-branch Segmentation Network for Situation Awareness in Autonomous Navigation ( http://arxiv.org/abs/2404.00366v1 )

ライセンス: Link先を確認
Guan-Cheng Zhou, Chen Chengb, Yan-zhou Chena, (参考訳) リアルタイムかつ高精度な状況認識技術は無人表面車両(USV)の自律走行に不可欠である。 特に、堅牢で高速な障害物セマンティックセマンティクス法が不可欠である。 しかし、港と海洋環境の違いから、海と空を区別することは困難である。 本研究では,海上の港湾環境でUSVや無人航空機の視点を捉え,データの特徴を解析するデータセットを構築した。 統計的解析により、海と空の分布と行の位置情報の間に高い相関が示された。 このことから,海と空の間の予測精度を向上させるために,行位置符号化モジュール(RPEM)を備えた3分岐セマンティックセマンティックセマンティックセマンティクスネットワークを提案した。 提案したRPEMは,行座標が特徴抽出に与える影響を強調した。 ベースラインと比較して、RPEMを用いた3分岐ネットワークは、計算速度を著しく低下させることなく、海と空を区別する能力を大幅に向上させた。

Real-time and high-precision situational awareness technology is critical for autonomous navigation of unmanned surface vehicles (USVs). In particular, robust and fast obstacle semantic segmentation methods are essential. However, distinguishing between the sea and the sky is challenging due to the differences between port and maritime environments. In this study, we built a dataset that captured perspectives from USVs and unmanned aerial vehicles in a maritime port environment and analysed the data features. Statistical analysis revealed a high correlation between the distribution of the sea and sky and row positional information. Based on this finding, a three-branch semantic segmentation network with a row position encoding module (RPEM) was proposed to improve the prediction accuracy between the sea and the sky. The proposed RPEM highlights the effect of row coordinates on feature extraction. Compared to the baseline, the three-branch network with RPEM significantly improved the ability to distinguish between the sea and the sky without significantly reducing the computational speed.
翻訳日:2024-04-04 04:10:32 公開日:2024-03-30
# SA-LSPL:次のPOIレコメンデーションのためのLong-AwareとShort-Term Preference Learning

SA-LSPL:Sequence-Aware Long- and Short- Term Preference Learning for next POI recommendation ( http://arxiv.org/abs/2404.00367v1 )

ライセンス: Link先を確認
Bin Wang, Yan Zhang, Yan Ma, Yaohui Jin, Yanyan Xu, (参考訳) 次のPoint of Interest(POI)推奨は、特定の時間に次のPOIを推奨することを目的としている。 ユーザのチェックイン記録を長いシーケンスと見なすことができるため、リカレントニューラルネットワーク(RNN)に基づく手法が近年、このタスクに有効であることが示されている。 しかし、既存の手法では、時空間的相関関係や依存関係をシーケンスレベルで完全に調べるのに苦労することが多く、ユーザの嗜好に影響を与える様々な要因を十分に考慮しないことが多い。 これらの課題に対処するため,次回のPOIレコメンデーションのためにSequence-Aware Long- and Short-Term Preference Learning (SA-LSPL) と呼ばれる新しいアプローチを提案する。 我々は,ユーザの長期的嗜好を効果的にモデル化するために,様々な情報機能を組み合わせる。 具体的には,ユーザのパーソナライズされた好みと社会的影響を包括的に考慮し,マルチモーダルな埋め込みモジュールを用いて多様なチェックインの詳細を埋め込む。 さらに、シーケンスレベルと暗黙のシーケンス依存性における明示的な時空間相関について検討する。 さらに、SA-LSPLは、現在のチェックインシーケンスにおける連続的および非連続的な訪問と、カテゴリ間の遷移依存性の時空間的相関を学習し、ユーザの短期的嗜好を包括的に把握する。 2つの実世界のデータセットに対する大規模な実験は、最先端のベースライン法よりもSA-LSPLの方が優れていることを示した。

The next Point of Interest (POI) recommendation aims to recommend the next POI for users at a specific time. As users' check-in records can be viewed as a long sequence, methods based on Recurrent Neural Networks (RNNs) have recently shown good applicability to this task. However, existing methods often struggle to fully explore the spatio-temporal correlations and dependencies at the sequence level, and don't take full consideration for various factors influencing users' preferences. To address these issues, we propose a novel approach called Sequence-Aware Long- and Short-Term Preference Learning (SA-LSPL) for next-POI recommendation. We combine various information features to effectively model users' long-term preferences. Specifically, our proposed model uses a multi-modal embedding module to embed diverse check-in details, taking into account both user's personalized preferences and social influences comprehensively. Additionally, we consider explicit spatio-temporal correlations at the sequence level and implicit sequence dependencies. Furthermore, SA-LSPL learns the spatio-temporal correlations of consecutive and non-consecutive visits in the current check-in sequence, as well as transition dependencies between categories, providing a comprehensive capture of user's short-term preferences. Extensive experiments on two real-world datasets demonstrate the superiority of SA-LSPL over state-of-the-art baseline methods.
翻訳日:2024-04-04 04:10:32 公開日:2024-03-30
# 可変・コーディネートされた同音運動生成に向けて

Towards Variable and Coordinated Holistic Co-Speech Motion Generation ( http://arxiv.org/abs/2404.00368v1 )

ライセンス: Link先を確認
Yifei Liu, Qiong Cao, Yandong Wen, Huaiguang Jiang, Changxing Ding, (参考訳) 本稿では,3次元アバターのライフライクな音声合成による音声合成の課題に対処し,可変性と協調性という2つの重要な側面に着目した。 可変性により、アバターは類似した音声内容であっても幅広い動きを見せることができ、コーディネーションによって表情、手振り、身体のポーズの調和が保証される。 ProbTalkは,音声における顔,手,体の動きを協調的にモデル化する統合確率的フレームワークである。 ProbTalkは可変オートエンコーダ(VAE)アーキテクチャ上に構築され、3つのコア設計が組み込まれている。 まず、VAEに積量子化(PQ)を導入し、複素全体運動の表現を豊かにする。 第二に、2次元位置符号化を製品量子化表現に組み込んだ新しい非自己回帰モデルを提案し、それによってPQ符号の基本構造情報を保存する。 最後に、予備予測を洗練させるために第2段階を使用し、高周波の詳細をさらに鮮明にする。 これら3つの設計を結合することにより、ProbTalkは自然で多様な音声の合成を可能とし、質的かつ定量的な評価において、特にリアリズムの観点から、いくつかの最先端の手法よりも優れている。 私たちのコードとモデルは、https://feifeifeiliu.github.io/probtalk/で研究目的でリリースされます。

This paper addresses the problem of generating lifelike holistic co-speech motions for 3D avatars, focusing on two key aspects: variability and coordination. Variability allows the avatar to exhibit a wide range of motions even with similar speech content, while coordination ensures a harmonious alignment among facial expressions, hand gestures, and body poses. We aim to achieve both with ProbTalk, a unified probabilistic framework designed to jointly model facial, hand, and body movements in speech. ProbTalk builds on the variational autoencoder (VAE) architecture and incorporates three core designs. First, we introduce product quantization (PQ) to the VAE, which enriches the representation of complex holistic motion. Second, we devise a novel non-autoregressive model that embeds 2D positional encoding into the product-quantized representation, thereby preserving essential structure information of the PQ codes. Last, we employ a secondary stage to refine the preliminary prediction, further sharpening the high-frequency details. Coupling these three designs enables ProbTalk to generate natural and diverse holistic co-speech motions, outperforming several state-of-the-art methods in qualitative and quantitative evaluations, particularly in terms of realism. Our code and model will be released for research purposes at https://feifeifeiliu.github.io/probtalk/.
翻訳日:2024-04-04 04:10:32 公開日:2024-03-30
# ホロニック制御アーキテクチャによる作業ロボットの協調と製造ワークセルへの統合

Worker Robot Cooperation and Integration into the Manufacturing Workcell via the Holonic Control Architecture ( http://arxiv.org/abs/2404.00369v1 )

ライセンス: Link先を確認
Ahmed R. Sadik, Bodo Urban, Omar Adel, (参考訳) Worker-Robot Cooperationは、人間と工業ロボットの両方の利点をまとめて、新しいインテリジェントな製造技術を提供する新しい産業トレンドだ。 作業者とロボットとの協調製造は、製品部品や製造ツールなどの他の要素を含む。 これらの生産要素はすべて、生産要求を満たすために、1つの製造ワークセルで協力する必要があります。 製造管理システムは、これらの協調的な要素を1つの体で結合する手段である。 この製造管理システムは、協調ワークセルの性質上、分散して自律的である。 そこで本論文では,協調型ワークセルの製造概念として,ホロニック制御アーキテクチャを提案する。 さらに、本論文は、デュアルアームロボットと作業員の協調を含むケーススタディに応用することで、この製造コンセプトの実現可能性に焦点を当てている。 このケーススタディでは、作業者は様々な手の動きを使ってロボットと協力し、高い生産柔軟性を達成する。

Worker-Robot Cooperation is a new industrial trend, which aims to sum the advantages of both the human and the industrial robot to afford a new intelligent manufacturing techniques. The cooperative manufacturing between the worker and the robot contains other elements such as the product parts and the manufacturing tools. All these production elements must cooperate in one manufacturing workcell to fulfill the production requirements. The manufacturing control system is the mean to connect all these cooperative elements together in one body. This manufacturing control system is distributed and autonomous due to the nature of the cooperative workcell. Accordingly, this article proposes the holonic control architecture as the manufacturing concept of the cooperative workcell. Furthermore, the article focuses on the feasibility of this manufacturing concept, by applying it over a case study that involves the cooperation between a dual-arm robot and a worker. During this case study, the worker uses a variety of hand gestures to cooperate with the robot to achieve the highest production flexibility
翻訳日:2024-04-04 04:10:32 公開日:2024-03-30
# 学習から分析へ:ゴール指向のクライアント選択によるモデル効率の改善

From Learning to Analytics: Improving Model Efficacy with Goal-Directed Client Selection ( http://arxiv.org/abs/2404.00371v1 )

ライセンス: Link先を確認
Jingwen Tong, Zhenzhen Chen, Liqun Fu, Jun Zhang, Zhu Han, (参考訳) フェデレートラーニング(FL)は、データプライバシを保持しながら、分散クライアント間でグローバルモデルを学ぶための魅力的なパラダイムである。 高品質なユーザエクスペリエンスの要求により、FLプロセスの後、十分に訓練されたグローバルモデルを評価することが重要です。 本稿では,クライアントのローカルデータを用いて訓練されたグローバルモデルの効果的な評価を可能にするクローズドループモデル解析フレームワークを提案する。 FLプロセスにおけるシステムとデータの不均一性による課題に対処するため,モデル解析フレームワークに基づく目標指向のクライアント選択問題について,モデル学習用クライアントのサブセットを選択して検討した。 この問題は確率的多重武装バンディット(SMAB)問題として定式化されている。 我々はまず、このSMAB問題をフェデレート分析(FA)フレームワークで解くために、初期アッパー信頼境界(Quick-Init UCB)アルゴリズムを高速に導入した。 さらに,民主化分析(DA)フレームワークを用いて,信念伝播に基づくUPB(BP-UCB)アルゴリズムを提案する。 さらに,提案アルゴリズムに対する2つの後悔の上限を導出し,時間的地平線上で対数的に増大する。 数値的な結果から,提案アルゴリズムはFAフレームワークとDAフレームワークでそれぞれ1.44%未満と3.12%未満のギャップを有するほぼ最適な性能を達成できた。

Federated learning (FL) is an appealing paradigm for learning a global model among distributed clients while preserving data privacy. Driven by the demand for high-quality user experiences, evaluating the well-trained global model after the FL process is crucial. In this paper, we propose a closed-loop model analytics framework that allows for effective evaluation of the trained global model using clients' local data. To address the challenges posed by system and data heterogeneities in the FL process, we study a goal-directed client selection problem based on the model analytics framework by selecting a subset of clients for the model training. This problem is formulated as a stochastic multi-armed bandit (SMAB) problem. We first put forth a quick initial upper confidence bound (Quick-Init UCB) algorithm to solve this SMAB problem under the federated analytics (FA) framework. Then, we further propose a belief propagation-based UCB (BP-UCB) algorithm under the democratized analytics (DA) framework. Moreover, we derive two regret upper bounds for the proposed algorithms, which increase logarithmically over the time horizon. The numerical results demonstrate that the proposed algorithms achieve nearly optimal performance, with a gap of less than 1.44% and 3.12% under the FA and DA frameworks, respectively.
翻訳日:2024-04-04 04:10:32 公開日:2024-03-30
# The Devil is in the Edges: Onecular Depth Estimation with Edge-Aware Consistency Fusion (特集:ユビキタスコンピューティング)

The Devil is in the Edges: Monocular Depth Estimation with Edge-aware Consistency Fusion ( http://arxiv.org/abs/2404.00373v1 )

ライセンス: Link先を確認
Pengzhi Li, Yikang Ding, Haohan Wang, Chengshuai Tang, Zhiheng Li, (参考訳) 本稿では,高品質な単分子深度を鮮明なエッジで推定し,単一のRGB画像から全体構造を検証し,新しい単分子深度推定手法 ECFNet を提案する。 我々は,MDEネットワークのエッジ深度推定に影響を及ぼす重要な要因について徹底的な調査を行い,エッジ情報自体が深度予測において重要な役割を担っていることを示す。 そこで本研究では,ECFNetの入力として画像エッジを明示的に利用し,異なるソースから初期深度を抽出して最終深度を生成する手法を提案する。 具体的には、まずハイブリッドエッジ検出戦略を使用して、入力画像からエッジマップとエッジハイライト画像を取得し、次にトレーニング済みのMDEネットワークを利用して、上記の3つの画像の初期深さを推測する。 その後、EDFNetは層融合モジュール(LFM)を使用して初期深度を融合し、さらに深度整合モジュール(DCM)によって更新して最終的な推定を行う。 公開データセットとアブレーション研究の大規模な実験結果から,本手法が最先端の性能を達成できることが示唆された。 プロジェクトページ: https://zrealli.github.io/edgedepth.com

This paper presents a novel monocular depth estimation method, named ECFNet, for estimating high-quality monocular depth with clear edges and valid overall structure from a single RGB image. We make a thorough inquiry about the key factor that affects the edge depth estimation of the MDE networks, and come to a ratiocination that the edge information itself plays a critical role in predicting depth details. Driven by this analysis, we propose to explicitly employ the image edges as input for ECFNet and fuse the initial depths from different sources to produce the final depth. Specifically, ECFNet first uses a hybrid edge detection strategy to get the edge map and edge-highlighted image from the input image, and then leverages a pre-trained MDE network to infer the initial depths of the aforementioned three images. After that, ECFNet utilizes a layered fusion module (LFM) to fuse the initial depth, which will be further updated by a depth consistency module (DCM) to form the final estimation. Extensive experimental results on public datasets and ablation studies indicate that our method achieves state-of-the-art performance. Project page: https://zrealli.github.io/edgedepth.
翻訳日:2024-04-04 04:10:32 公開日:2024-03-30
# 医学教科書から推論スキルの強化を学習する小言語モデル

Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks ( http://arxiv.org/abs/2404.00376v1 )

ライセンス: Link先を確認
Hyunjae Kim, Hyeon Hwang, Jiwoo Lee, Sihyeon Park, Dain Kim, Taewhoo Lee, Chanwoong Yoon, Jiwoong Sohn, Donghee Choi, Jaewoo Kang, (参考訳) 近年の商業的大規模言語モデル(LM)の進歩は医療タスクにおいて有望な結果を示しているが、そのクローズドソースの性質は、プライバシーとセキュリティの重大な懸念を招き、医療分野での利用を妨げている。 オープンソースのモデルを作る努力にもかかわらず、それらの限られたパラメータは複雑な医療問題を解決するのに必要な多段階推論能力に不足をもたらすことが多い。 これを解決するために,70億個のパラメータを持つ新しい医療用AIシステムであるMeerkat-7Bを紹介する。 Meerkat-7Bは18の医学教科書から得られた高品質なチェーン・オブ・シーリングパスと多様な指導追跡データセットからなる、我々の新しい合成データセットを使用して訓練された。 GPT-3.5を13.1%上回り、メディトロン-7Bやバイオミストラル-7Bといった以前の最高の7Bモデルを13.4%、9.8%上回った。 特筆すべきは、米国医学ライセンス試験(USMLE)の通過閾値を7Bパラメーターモデルで初めて上回ったことである。 さらに, 既存の7Bモデルと13Bモデルと比較して, GPT-3.5の性能レベルに近づいた。 これにより、大規模なLMとパフォーマンスギャップが著しく狭まり、複雑な医療課題に対処する上での有効性が示される。

While recent advancements in commercial large language models (LM) have shown promising results in medical tasks, their closed-source nature poses significant privacy and security concerns, hindering their widespread use in the medical field. Despite efforts to create open-source models, their limited parameters often result in insufficient multi-step reasoning capabilities required for solving complex medical problems. To address this, we introduce Meerkat-7B, a novel medical AI system with 7 billion parameters. Meerkat-7B was trained using our new synthetic dataset consisting of high-quality chain-of-thought reasoning paths sourced from 18 medical textbooks, along with diverse instruction-following datasets. Our system achieved remarkable accuracy across seven medical benchmarks, surpassing GPT-3.5 by 13.1%, as well as outperforming the previous best 7B models such as MediTron-7B and BioMistral-7B by 13.4% and 9.8%, respectively. Notably, it surpassed the passing threshold of the United States Medical Licensing Examination (USMLE) for the first time for a 7B-parameter model. Additionally, our system offered more detailed free-form responses to clinical queries compared to existing 7B and 13B models, approaching the performance level of GPT-3.5. This significantly narrows the performance gap with large LMs, showcasing its effectiveness in addressing complex medical challenges.
翻訳日:2024-04-04 04:10:32 公開日:2024-03-30
# 自由電子と光子の間の最大量子相互作用

Maximal quantum interaction between free electrons and photons ( http://arxiv.org/abs/2404.00377v1 )

ライセンス: Link先を確認
Zetao Xie, Zeling Chen, Hao Li, Qinghui Yan, Hongsheng Chen, Xiao Lin, Ido Kaminer, Owen D. Miller, Yi Yang, (参考訳) 自由電子量子光学の新しい分野は、電子-光子絡み合いを可能にし、量子情報処理のための非自明な光子状態を生成する可能性を持っている。 最近の実験的研究は量子状態に入ったが、急激な理論的発展は、定性的にユニークな現象は特定の相互作用強度を超えるだけであると予測している。 したがって、最大電子-光子相互作用強度とそれに近づくことができる材料、幾何学、粒子エネルギーを同定することが重要となる。 我々は、自由電子と単一モード光子の間の量子真空相互作用強度に上限を与え、最も強い相互作用の条件を照らす。 重要なことに、電子と光子の明示的なエネルギー選択法は、任意の分離で最大相互作用を達成し、中間速度の電子よりも速い電子または遅い電子を優先する2つの最適状態を特定する。 標準測地解析および数値計算によりその限界を検証し、強い量子相互作用の実現可能性を示す準最適設計を提供する。 我々の研究は、自由電子と光子の間の量子相互作用を最大化するための基本的な直観を提供し、電子-光子および電子-光子-光子の絡み合いに関する将来の実験のための実用的な設計規則を提供する。 また、自由電子放射源の最大出力や誘電体レーザー加速器の最大加速勾配などの応用のための重要な指標の評価を可能にする必要がある。

The emerging field of free-electron quantum optics enables electron-photon entanglement and holds the potential for generating nontrivial photon states for quantum information processing. Although recent experimental studies have entered the quantum regime, rapid theoretical developments predict that qualitatively unique phenomena only emerge beyond a certain interaction strength. It is thus pertinent to identify the maximal electron-photon interaction strength and the materials, geometries, and particle energies that enable one to approach it. We derive an upper limit to the quantum vacuum interaction strength between free electrons and single-mode photons, which illuminates the conditions for the strongest interaction. Crucially, we obtain an explicit energy selection recipe for electrons and photons to achieve maximal interaction at arbitrary separations and identify two optimal regimes favoring either fast or slow electrons over those with intermediate velocities. We validate the limit by analytical and numerical calculations on canonical geometries and provide near-optimal designs indicating the feasibility of strong quantum interactions. Our findings offer fundamental intuition for maximizing the quantum interaction between free electrons and photons and provide practical design rules for future experiments on electron-photon and electron-mediated photon-photon entanglement. They should also enable the evaluation of key metrics for applications such as the maximum power of free-electron radiation sources and the maximum acceleration gradient of dielectric laser accelerators.
翻訳日:2024-04-04 04:10:32 公開日:2024-03-30
# DHR:弱スーパービジョンセマンティックセマンティックセグメンテーションのためのクラス間およびクラス間領域におけるデュアル特徴駆動階層的リバランシング

DHR: Dual Features-Driven Hierarchical Rebalancing in Inter- and Intra-Class Regions for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2404.00380v1 )

ライセンス: Link先を確認
Sanghyun Jo, Fei Pan, In-Jae Yu, Kyungsu Kim, (参考訳) 弱教師付きセマンティックセグメンテーション(WSS)は、Segment Anythingのような大規模ビジョンモデルのための入力シードマスクとして使用される場合、限られたデータで高品質なセグメンテーションを保証する。 しかし、WSSは、Random Walkのような従来の拡張メソッドのオーバーフィットに由来する制限として、隣接する複数のクラスを持つイメージで見過ごされているため、マイナークラスに関連する課題に直面します。 まず、従来の手法の代わりに教師なし・弱教師付き特徴写像を用いて、階層的なマスク強化を実現する。 この方法は明らかに上位クラスを分類し、その後、関連する下位クラスを分離し、すべてのクラスが下位クラスを失うことなくマスクで正しく復元されるようにする。 我々のアプローチは、広範な実験を通じて検証され、5つのベンチマーク(VOC: 79.8\%、COCO: 53.9\%、コンテキスト: 49.0\%、ADE: 32.9\%、Stuff: 37.4\%)でWSSを大幅に改善し、完全な教師付きメソッドとのギャップを、VOC検証セット上で84\%以上削減する。 コードはhttps://github.com/shjo-april/DHR.comで入手できる。

Weakly-supervised semantic segmentation (WSS) ensures high-quality segmentation with limited data and excels when employed as input seed masks for large-scale vision models such as Segment Anything. However, WSS faces challenges related to minor classes since those are overlooked in images with adjacent multiple classes, a limitation originating from the overfitting of traditional expansion methods like Random Walk. We first address this by employing unsupervised and weakly-supervised feature maps instead of conventional methodologies, allowing for hierarchical mask enhancement. This method distinctly categorizes higher-level classes and subsequently separates their associated lower-level classes, ensuring all classes are correctly restored in the mask without losing minor ones. Our approach, validated through extensive experimentation, significantly improves WSS across five benchmarks (VOC: 79.8\%, COCO: 53.9\%, Context: 49.0\%, ADE: 32.9\%, Stuff: 37.4\%), reducing the gap with fully supervised methods by over 84\% on the VOC validation set. Code is available at https://github.com/shjo-april/DHR.
翻訳日:2024-04-04 03:59:36 公開日:2024-03-30
# SpikingJET: 完全かつ畳み込み型ニューラルネットワークのためのフォールトインジェクションの強化

SpikingJET: Enhancing Fault Injection for Fully and Convolutional Spiking Neural Networks ( http://arxiv.org/abs/2404.00383v1 )

ライセンス: Link先を確認
Anil Bayram Gogebakan, Enrico Magliano, Alessio Carpegna, Annachiara Ruospo, Alessandro Savino, Stefano Di Carlo, (参考訳) 人工ニューラルネットワークが自動運転車や医療診断装置、産業自動化といった安全クリティカルなシステムに統合されるにつれて、ランダムなハードウェア障害に直面した際の信頼性が最重要となる。 本稿では,完全連結・畳み込み型スパイキングニューラルネットワーク(SNN)に特化して設計された新しい故障インジェクタであるSpkingJETを紹介する。 我々の研究は、SNNのハードウェア障害に対するレジリエンスを評価するための重要な必要性を、現実世界のアプリケーションにおけるその優位性を考える上で、浮き彫りにしている。 SpikingJETは、エラーを誘発し、シナプス重み、ニューロンモデルパラメータ、内部状態、アクティベーション機能などの重要なコンポーネントに障害を注入することで、SNNのレジリエンスを評価するための包括的なプラットフォームを提供する。 本稿では,各種SNNアーキテクチャのソフトウェアレベル実験を通じてスパイキングJETの有効性を実証し,その脆弱性とハードウェア故障に対するレジリエンスに関する知見を明らかにする。 さらに、SNNにおけるフォールトレジリエンスの重要性を強調することは、さまざまなドメインにおけるニューラルネットワーク(NN)駆動システムの信頼性と安全性を高めるための継続的な取り組みに寄与する。

As artificial neural networks become increasingly integrated into safety-critical systems such as autonomous vehicles, devices for medical diagnosis, and industrial automation, ensuring their reliability in the face of random hardware faults becomes paramount. This paper introduces SpikingJET, a novel fault injector designed specifically for fully connected and convolutional Spiking Neural Networks (SNNs). Our work underscores the critical need to evaluate the resilience of SNNs to hardware faults, considering their growing prominence in real-world applications. SpikingJET provides a comprehensive platform for assessing the resilience of SNNs by inducing errors and injecting faults into critical components such as synaptic weights, neuron model parameters, internal states, and activation functions. This paper demonstrates the effectiveness of Spiking-JET through extensive software-level experiments on various SNN architectures, revealing insights into their vulnerability and resilience to hardware faults. Moreover, highlighting the importance of fault resilience in SNNs contributes to the ongoing effort to enhance the reliability and safety of Neural Network (NN)-powered systems in diverse domains.
翻訳日:2024-04-04 03:59:36 公開日:2024-03-30
# TTD:CLIPで画像テキストのアライメントを強化して単一タグバイアスを軽減する

TTD: Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias ( http://arxiv.org/abs/2404.00384v1 )

ライセンス: Link先を確認
Sanghyun Jo, Soohyun Ryu, Sungyub Kim, Eunho Yang, Kyungsu Kim, (参考訳) 現代のCLIPモデルでは,「textit{single tag bias}」という重要なバイアスが認められる。 このバイアスは、画像とテキストの関係において1つの特定のタグを優先するCLIPのテキスト埋め込みから生まれた、他の関連するタグを無視しながら、特異タグ(ワード)に不均等な焦点として現れている。 テキストを個々のタグに分解する場合、CLIPのイメージ埋め込みと高い関連性を持つのは1つのタグのみである。 これにより、テキストに存在する複数のタグの間に不均一なアライメントが生じる。 この課題に対処するために、我々は新しい2段階の微調整アプローチを導入する。 まず,タグと最寄りの画素との類似性を利用して,テキストから画像関連タグを抽出する手法を提案する。 第2に,抽出したタグから合成マスクをテキスト由来のマスクに整列させることを目的とした自己蒸留方式を提案する。 このアプローチは、単一のタグバイアスを軽減し、追加のデータや監視を必要とせずに、CLIPモデルのアライメントを大幅に改善する。 本手法は,マルチタグ分類とセグメンテーションタスクにおけるモデルに依存しない改善を実証し,外部リソースに依存する競合手法を克服する。 コードはhttps://github.com/shjo-april/TTD.comで入手できる。

We identify a critical bias in contemporary CLIP-based models, which we denote as \textit{single tag bias}. This bias manifests as a disproportionate focus on a singular tag (word) while neglecting other pertinent tags, stemming from CLIP's text embeddings that prioritize one specific tag in image-text relationships. When deconstructing text into individual tags, only one tag tends to have high relevancy with CLIP's image embedding, leading to an imbalanced tag relevancy. This results in an uneven alignment among multiple tags present in the text. To tackle this challenge, we introduce a novel two-step fine-tuning approach. First, our method leverages the similarity between tags and their nearest pixels for scoring, enabling the extraction of image-relevant tags from the text. Second, we present a self-distillation strategy aimed at aligning the combined masks from extracted tags with the text-derived mask. This approach mitigates the single tag bias, thereby significantly improving the alignment of CLIP's model without necessitating additional data or supervision. Our technique demonstrates model-agnostic improvements in multi-tag classification and segmentation tasks, surpassing competing methods that rely on external resources. Code is available at https://github.com/shjo-april/TTD.
翻訳日:2024-04-04 03:59:36 公開日:2024-03-30
# 因子グラフを用いた制約付きレイアウト生成

Constrained Layout Generation with Factor Graphs ( http://arxiv.org/abs/2404.00385v1 )

ライセンス: Link先を確認
Mohammed Haroon Dupty, Yanfei Dong, Sicong Leng, Guoji Fu, Yong Liang Goh, Wei Lu, Wee Sun Lee, (参考訳) 本稿では,フロアプラン設計プロセスを含む複数の領域で見られる空間制約下でのオブジェクト中心レイアウト生成の課題に対処する。 設計プロセスは通常、サイズのようなオブジェクト属性と相対的な位置決めのようなオブジェクト間の関係を含む一連の空間的制約を規定する。 通常、オブジェクトを単一のノードとして表現する既存の作業は、オブジェクト間の複雑な相互作用を正確にモデル化する粒度を欠いている。 例えば、部屋の右壁のようなオブジェクトの特定の部分だけが、隣接するオブジェクトと相互作用します。 このギャップに対処するため、各室に4つの潜伏変数ノード、各制約に1つの因子ノードを持つ因子グラフに基づくアプローチを導入する。 ファクタノードは、それらが接続されている変数間の依存関係を表し、より高い順序の可能性のある制約を効果的にキャプチャする。 次に、両部グラフ上でメッセージパッシングを開発し、所望の要求に合致するフロアプランを生成するよう訓練されたファクタグラフニューラルネットワークを形成する。 我々のアプローチはシンプルで、ユーザ要求に忠実なレイアウトを生成し、既存のメソッドよりもIOUスコアが大幅に改善されていることを実証しています。 さらに、我々のアプローチは推論と正確性があり、仕様を反復的に進化させ、AI誘導設計のための実用的で強力なツールを提供する、実践的なイン・ザ・ループ設計プロセスに適しています。

This paper addresses the challenge of object-centric layout generation under spatial constraints, seen in multiple domains including floorplan design process. The design process typically involves specifying a set of spatial constraints that include object attributes like size and inter-object relations such as relative positioning. Existing works, which typically represent objects as single nodes, lack the granularity to accurately model complex interactions between objects. For instance, often only certain parts of an object, like a room's right wall, interact with adjacent objects. To address this gap, we introduce a factor graph based approach with four latent variable nodes for each room, and a factor node for each constraint. The factor nodes represent dependencies among the variables to which they are connected, effectively capturing constraints that are potentially of a higher order. We then develop message-passing on the bipartite graph, forming a factor graph neural network that is trained to produce a floorplan that aligns with the desired requirements. Our approach is simple and generates layouts faithful to the user requirements, demonstrated by a large improvement in IOU scores over existing methods. Additionally, our approach, being inferential and accurate, is well-suited to the practical human-in-the-loop design process where specifications evolve iteratively, offering a practical and powerful tool for AI-guided design.
翻訳日:2024-04-04 03:59:36 公開日:2024-03-30
# FinNLP 2024におけるJetsons: Transformer-based Modelを用いたニュース記事のESG影響の理解に向けて

Jetsons at FinNLP 2024: Towards Understanding the ESG Impact of a News Article using Transformer-based Models ( http://arxiv.org/abs/2404.00386v1 )

ライセンス: Link先を確認
Parag Pravin Dakle, Alolika Gon, Sihan Zha, Liang Wang, SaiKrishna Rallabandi, Preethi Raghavan, (参考訳) 本稿では,Jetsonsチームが,ML-ESG-3(Multi-Lingual ESG Impact Duration Inference, ML-ESG-3)共有タスクに対して行ったアプローチについて述べる。 共有タスクは、ニュース記事のESG影響の持続時間と種類を予測することに焦点を当てる。 共有タスクデータセットは、英語、フランス語、韓国語、日本語の2,059のニュースタイトルと記事で構成されている。 XLM-RoBERTaをカスタムな微調整戦略で微調整し、自己学習とDeBERTa-v3を英語翻訳のみで用いる。 これらのモデルはそれぞれ、韓国語と日本語のリーダーボードに、英語のアンサンブルにそれぞれランクインした。 インパクト型分類タスクでは,XLM-RoBERTaモデルを英語で最初にランク付けしたカスタム微調整戦略を用いて微調整した。

In this paper, we describe the different approaches explored by the Jetsons team for the Multi-Lingual ESG Impact Duration Inference (ML-ESG-3) shared task. The shared task focuses on predicting the duration and type of the ESG impact of a news article. The shared task dataset consists of 2,059 news titles and articles in English, French, Korean, and Japanese languages. For the impact duration classification task, we fine-tuned XLM-RoBERTa with a custom fine-tuning strategy and using self-training and DeBERTa-v3 using only English translations. These models individually ranked first on the leaderboard for Korean and Japanese and in an ensemble for the English language, respectively. For the impact type classification task, our XLM-RoBERTa model fine-tuned using a custom fine-tuning strategy ranked first for the English language.
翻訳日:2024-04-04 03:59:36 公開日:2024-03-30
# 真単調作用素の学習と非線形逆問題への応用

Learning truly monotone operators with applications to nonlinear inverse problems ( http://arxiv.org/abs/2404.00390v1 )

ライセンス: Link先を確認
Younes Belkouchi, Jean-Christophe Pesquet, Audrey Repetti, Hugues Talbot, (参考訳) 本稿では,新たに定義されたペナル化損失を通じてモノトーンニューラルネットワークを学習するための新しいアプローチを紹介する。 提案手法は, 画像処理タスクでよく見られる単調な包摂問題, 特に単調な包摂問題のクラスを解くのに有効である。 Forward-Backward-Forward (FBF)アルゴリズムは、ニューラルネットワークのリプシッツ定数が未知であっても解を提供する。 特に、FBFアルゴリズムは、学習した演算子が単調であるという条件の下で収束保証を提供する。 本研究の目的は,プラグアンドプレイ方式を基礎として,新たに学習した演算子を非線形逆問題に応用することである。 これを実現するために、まず、変分包摂問題として問題を定式化する。 その後、単調ニューラルネットワークをトレーニングして、本質的に単調ではない演算子を近似する。 FBFアルゴリズムを応用し、非線形逆問題の解法が成功したシミュレーション例を示す。

This article introduces a novel approach to learning monotone neural networks through a newly defined penalization loss. The proposed method is particularly effective in solving classes of variational problems, specifically monotone inclusion problems, commonly encountered in image processing tasks. The Forward-Backward-Forward (FBF) algorithm is employed to address these problems, offering a solution even when the Lipschitz constant of the neural network is unknown. Notably, the FBF algorithm provides convergence guarantees under the condition that the learned operator is monotone. Building on plug-and-play methodologies, our objective is to apply these newly learned operators to solving non-linear inverse problems. To achieve this, we initially formulate the problem as a variational inclusion problem. Subsequently, we train a monotone neural network to approximate an operator that may not inherently be monotone. Leveraging the FBF algorithm, we then show simulation examples where the non-linear inverse problem is successfully solved.
翻訳日:2024-04-04 03:59:36 公開日:2024-03-30
# ニューラルネットワーク翻訳におけるBPE語彙トリミングの解析

An Analysis of BPE Vocabulary Trimming in Neural Machine Translation ( http://arxiv.org/abs/2404.00397v1 )

ライセンス: Link先を確認
Marco Cognetta, Tatsuya Hiraoka, Naoaki Okazaki, Rico Sennrich, Yuval Pinter, (参考訳) 本稿では,レアサブワードをコンポーネントサブワードに置き換える後処理であるByte-Pair Encoding subword tokenizationにおけるしきい値ボキャブラリトリミングについて検討する。 この技術は一般的なトークン化ライブラリで利用できるが、厳密な科学的調査の対象にはなっていない。 モデルサイズの削減とロバスト性によるモデル性能向上の両面から, 機械翻訳実装におけるレアサブワードの除去がベストプラクティスとして提案されているが, 実験により, ハイパーパラメータ設定の広い領域において, 語彙トリミングが性能向上に失敗し, 大幅な劣化を招きかねないことが示唆された。

We explore threshold vocabulary trimming in Byte-Pair Encoding subword tokenization, a postprocessing step that replaces rare subwords with their component subwords. The technique is available in popular tokenization libraries but has not been subjected to rigorous scientific scrutiny. While the removal of rare subwords is suggested as best practice in machine translation implementations, both as a means to reduce model size and for improving model performance through robustness, our experiments indicate that, across a large space of hyperparameter settings, vocabulary trimming fails to improve performance, and is even prone to incurring heavy degradation.
翻訳日:2024-04-04 03:59:36 公開日:2024-03-30
# Aurora-M: 初のオープンソース多言語言語モデル

Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order ( http://arxiv.org/abs/2404.00399v1 )

ライセンス: Link先を確認
Taishi Nakamura, Mayank Mishra, Simone Tedeschi, Yekun Chai, Jason T Stillerman, Felix Friedrich, Prateek Yadav, Tanmay Laud, Vu Minh Chien, Terry Yue Zhuo, Diganta Misra, Ben Bogin, Xuan-Son Vu, Marzena Karpinska, Arnav Varma Dantuluri, Wojciech Kusa, Tommaso Furlanello, Rio Yokota, Niklas Muennighoff, Suhas Pai, Tosin Adewumi, Veronika Laippala, Xiaozhe Yao, Adalberto Junior, Alpay Ariyak, Aleksandr Drozd, Jordan Clive, Kshitij Gupta, Liangyu Chen, Qi Sun, Ken Tsui, Noah Persaud, Nour Fahmy, Tianlong Chen, Mohit Bansal, Nicolo Monti, Tai Dang, Ziyang Luo, Tien-Tung Bui, Roberto Navigli, Virendra Mehta, Matthew Blumberg, Victor May, Huu Nguyen, Sampo Pyysalo, (参考訳) 事前訓練された言語モデルは、いくつかのAIアプリケーションを支えるが、トレーニングのための高い計算コストはアクセシビリティを制限する。 BLOOMやStarCoderといったイニシアティブは、共同コミュニティ開発のための事前訓練されたモデルへのアクセスを民主化することを目指している。 しかし、そのような既存のモデルは、制限された多言語能力、連続的な事前訓練が破滅的な忘れを生じさせる一方、スクラッチからの事前訓練は計算コストがかかること、AIの安全性と開発法に準拠すること、といった課題に直面している。 本稿では,英語,フィンランド語,ヒンディー語,日本語,ベトナム語,コードに基づく15Bパラメータの多言語オープンソースモデルであるAurora-Mを提案する。 StarCoderPlusから435億の追加トークンで継続的に事前訓練され、Aurora-Mは合計で2兆トークンを超えた。 これは、人間がレビューした安全指示に基づいて微調整された最初のオープンソース多言語モデルであり、従来の赤チームの考慮だけでなく、安全・安全・信頼性開発・人工知能の利用に関するビデン・ハリス執行命令(英語版)に明記された具体的な懸念とも一致している。 Aurora-Mは様々なタスクや言語に対して厳格に評価されており、特に安全性評価において、多言語環境での破滅的な忘れ込みや優れた代替手段に対する堅牢性を実証している。 オープンソースのLLM開発を促進するため、Aurora-Mとその変種はhttps://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 でリリースされた。

Pretrained language models underpin several AI applications, but their high computational cost for training limits accessibility. Initiatives such as BLOOM and StarCoder aim to democratize access to pretrained models for collaborative community development. However, such existing models face challenges: limited multilingual capabilities, continual pretraining causing catastrophic forgetting, whereas pretraining from scratch is computationally expensive, and compliance with AI safety and development laws. This paper presents Aurora-M, a 15B parameter multilingual open-source model trained on English, Finnish, Hindi, Japanese, Vietnamese, and code. Continually pretrained from StarCoderPlus on 435 billion additional tokens, Aurora-M surpasses 2 trillion tokens in total training token count. It is the first open-source multilingual model fine-tuned on human-reviewed safety instructions, thus aligning its development not only with conventional red-teaming considerations, but also with the specific concerns articulated in the Biden-Harris Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. Aurora-M is rigorously evaluated across various tasks and languages, demonstrating robustness against catastrophic forgetting and outperforming alternatives in multilingual settings, particularly in safety evaluations. To promote responsible open-source LLM development, Aurora-M and its variants are released at https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 .
翻訳日:2024-04-04 03:59:36 公開日:2024-03-30
# 科学テーブルのタブラルQAモデルについて : カスタマイズデータセットを用いた検討

How Robust are the Tabular QA Models for Scientific Tables? A Study using Customized Dataset ( http://arxiv.org/abs/2404.00401v1 )

ライセンス: Link先を確認
Akash Ghosh, B Venkata Sahith, Niloy Ganguly, Pawan Goyal, Mayank Singh, (参考訳) ハイブリッド科学表表とテキストデータに関する質問回答(QA)は、科学的情報を扱うものであり、複雑な数値推論に依存している。 近年、表形式のQAは急速に進歩しているが、ベンチマークデータセットが欠如しているため、科学的情報に対する堅牢性は欠如している。 従来のQAモデルの科学的ハイブリッド表データに対するロバスト性を検討するため,科学表から822組の質問応答対からなる新しいデータセット「SciTabQA」とその記述を提案する。 このデータセットの助けを借りて、その能力に基づいて最先端のタブラルQAモデルを評価する。 一 構造化データ(テーブル)及び非構造化データ(テキスト)の両方を必要とする異種情報を使用すること (ii)複雑な科学的推論を行う。 本質的には、科学的な表やテキストを解釈するモデルの能力を確認する。 実験の結果,「SciTabQA」は科学的異種データに対する質問応答研究の革新的なデータセットであることがわかった。 3つの最先端のタブラルQAモデルをベンチマークした結果、最良のF1スコアは0.462であることがわかった。

Question-answering (QA) on hybrid scientific tabular and textual data deals with scientific information, and relies on complex numerical reasoning. In recent years, while tabular QA has seen rapid progress, understanding their robustness on scientific information is lacking due to absence of any benchmark dataset. To investigate the robustness of the existing state-of-the-art QA models on scientific hybrid tabular data, we propose a new dataset, "SciTabQA", consisting of 822 question-answer pairs from scientific tables and their descriptions. With the help of this dataset, we assess the state-of-the-art Tabular QA models based on their ability (i) to use heterogeneous information requiring both structured data (table) and unstructured data (text) and (ii) to perform complex scientific reasoning tasks. In essence, we check the capability of the models to interpret scientific tables and text. Our experiments show that "SciTabQA" is an innovative dataset to study question-answering over scientific heterogeneous data. We benchmark three state-of-the-art Tabular QA models, and find that the best F1 score is only 0.462.
翻訳日:2024-04-04 03:59:36 公開日:2024-03-30
# 正のP表現によるマクスウェル・ブロッホ方程式の確率的補正

Stochastic correction to the Maxwell-Bloch equations via the positive P-representation ( http://arxiv.org/abs/2404.00402v1 )

ライセンス: Link先を確認
Johannes Stowasser, Felix Hitzelhammer, Michael A. Schreiber, Ulrich Hohenester, Gabriela Slavcheva, Michael Haider, Christian Jirauschek, (参考訳) 2レベル原子に着目して、正のP表現をJaynes-Cummings型のフルウェーブ混合ボゾン系およびフェルミオン系に適用し、非直交フェルミオン基底状態の選択において有利な自由度を同定する。 そこで本研究では,非古典位相空間上の確率微分方程式に関連付けて,マクスウェル・ブロッホ方程式の確率的補正を提案する。 このアプローチは、光-物質相互作用の半古典的処理と場量子化処理の関連性を探究し、半古典的モデルの主な利点を維持しつつ、非古典的光源のシミュレーションに使用できる可能性がある。

Focusing on two-level atoms, we apply the positive P-representation to a full-wave mixed bosonic and fermionic system of Jaynes-Cummings type and identify an advantageous degree of freedom in the choice of the involved nonorthogonal fermionic basis states. On this basis, we propose a stochastic correction to the Maxwell-Bloch equations by relating them to a stochastic differential equation on a nonclassical phase space, which captures the full second quantization dynamics of the system. This approach explores the connection between semiclassical and field-quantized treatments of light-matter interaction and can potentially be used for the simulation of nonclassical light sources while retaining the main advantages of a semiclassical model.
翻訳日:2024-04-04 03:59:36 公開日:2024-03-30
# UniMEEC:統合マルチモーダル感情認識と感情原因を目指して

UniMEEC: Towards Unified Multimodal Emotion Recognition and Emotion Cause ( http://arxiv.org/abs/2404.00403v1 )

ライセンス: Link先を確認
Guimin Hu, Zhihong Zhu, Daniel Hershcovich, Hasti Seifi, Jiayuan Xie, (参考訳) 会話におけるマルチモーダル感情認識(MERC)とマルチモーダル感情原因ペア抽出(MECPE)は近年注目されている。 感情は感情や感情の表現であり、特定の出来事、思考、状況に対する反応は感情の原因として知られる。 どちらもコインの2つの側面に似ており、人間の振る舞いや意図をまとめて記述している。 しかし、既存のほとんどの研究はMERCとMECPEを個別のタスクとして扱い、現実世界のアプリケーションに感情と原因を統合する上で潜在的に困難をもたらす可能性がある。 本稿では、感情と感情の因果関係と相補性を明らかにするために、統一マルチモーダル感情認識・感情因果分析フレームワーク(UniMEEC)を提案する。 具体的には、UniMEECはMERCとMECPEのタスクを2つのマスク予測問題として再構成し、感情と原因の相互作用を強化する。 一方、UniMEECは、事前学習モデルからモダリティ固有の知識を求めるためのモダリティ間の迅速な学習を共有している。 さらに,タスクへの情報フローを制御するために,タスク固有の階層型コンテキストアグリゲーションを提案する。 4つの公開ベンチマークデータセットを用いて、MERCおよびMECPEタスクのモデル性能を検証し、最先端手法と比較して一貫した改善を実現した。

Multimodal emotion recognition in conversation (MERC) and multimodal emotion-cause pair extraction (MECPE) has recently garnered significant attention. Emotions are the expression of affect or feelings; responses to specific events, thoughts, or situations are known as emotion causes. Both are like two sides of a coin, collectively describing human behaviors and intents. However, most existing works treat MERC and MECPE as separate tasks, which may result in potential challenges in integrating emotion and cause in real-world applications. In this paper, we propose a Unified Multimodal Emotion recognition and Emotion-Cause analysis framework (UniMEEC) to explore the causality and complementarity between emotion and emotion cause. Concretely, UniMEEC reformulates the MERC and MECPE tasks as two mask prediction problems, enhancing the interaction between emotion and cause. Meanwhile, UniMEEC shares the prompt learning among modalities for probing modality-specific knowledge from the Pre-trained model. Furthermore, we propose a task-specific hierarchical context aggregation to control the information flow to the task. Experiment results on four public benchmark datasets verify the model performance on MERC and MECPE tasks and achieve consistent improvements compared with state-of-the-art methods.
翻訳日:2024-04-04 03:59:36 公開日:2024-03-30
# TACO -- 会話からTwitterを訴える

TACO -- Twitter Arguments from COnversations ( http://arxiv.org/abs/2404.00406v1 )

ライセンス: Link先を確認
Marc Feger, Stefan Dietze, (参考訳) Twitterは、オンライン会話に参加するためのグローバルなハブとして現れ、ユーザー生成コンテンツの重要性を認識したさまざまな分野の研究コーパスとして登場した。 アーグメントマイニングはオンライン談話の処理と理解において重要な分析課題である。 具体的には、情報と推論として表される議論の構造的要素を特定することを目的としている。 しかし、これらの要素は静的ではなく、会話の中でコンテキストを必要とするかもしれないが、Twitterのこの動的な側面に対処するデータとアノテーションのフレームワークが欠如している。 我々は、Twitter Argumentsの最初のデータセットであるTACOを6人の専門家の間で0.718のクリッペンドルフのアルファでアノテートされた6つの異種トピックにまたがる200の会話全体をカバーする1,814のつぶやきを利用している。 第2に、Twitter上で引数コンポーネントを定義し、識別するために、Cambridge Dictionaryの定義を取り入れたアノテーションフレームワークを提供する。 我々の変換器に基づく分類器は、引数を検出する際に85.06\%のマクロF1ベースラインスコアを得る。 さらに、我々のデータによると、Twitterユーザーはインフォームド推論や情報に関する議論に携わる傾向にある。 TACOは、つぶやき分類器を訓練して、推測や情報要素に基づくつぶやきを管理するなど、複数の目的を果たすと同時に、ツイートの会話応答パターンに関する貴重な洞察を提供する。

Twitter has emerged as a global hub for engaging in online conversations and as a research corpus for various disciplines that have recognized the significance of its user-generated content. Argument mining is an important analytical task for processing and understanding online discourse. Specifically, it aims to identify the structural elements of arguments, denoted as information and inference. These elements, however, are not static and may require context within the conversation they are in, yet there is a lack of data and annotation frameworks addressing this dynamic aspect on Twitter. We contribute TACO, the first dataset of Twitter Arguments utilizing 1,814 tweets covering 200 entire conversations spanning six heterogeneous topics annotated with an agreement of 0.718 Krippendorff's alpha among six experts. Second, we provide our annotation framework, incorporating definitions from the Cambridge Dictionary, to define and identify argument components on Twitter. Our transformer-based classifier achieves an 85.06\% macro F1 baseline score in detecting arguments. Moreover, our data reveals that Twitter users tend to engage in discussions involving informed inferences and information. TACO serves multiple purposes, such as training tweet classifiers to manage tweets based on inference and information elements, while also providing valuable insights into the conversational reply patterns of tweets.
翻訳日:2024-04-04 03:59:36 公開日:2024-03-30
# パラメトリックレンズによる深層学習

Deep Learning with Parametric Lenses ( http://arxiv.org/abs/2404.00408v1 )

ライセンス: Link先を確認
Geoffrey S. H. Cruttwell, Bruno Gavranovic, Neil Ghani, Paul Wilson, Fabio Zanasi, (参考訳) 本稿では、レンズ、パラメトリックマップ、および逆微分カテゴリの観点から機械学習アルゴリズムの分類的意味論を提案する。 この基盤は強力な説明と統一の枠組みを提供しており、ADAM、AdaGrad、Nesterov運動量などの様々な勾配降下アルゴリズム、MSEやSoftmaxのクロスエントロピーのような様々な損失関数、および異なるアーキテクチャを包含し、それらの類似点と相違点に新たな光を当てている。 さらに、学習へのアプローチには、慣れ親しんだ連続領域(滑らかな写像のカテゴリでモデル化された)を超えて一般化する例があり、ブール回路と多項式回路の離散的な設定で実現することができる。 我々はPythonの実装でフレームワークの実用的重要性を実証する。

We propose a categorical semantics for machine learning algorithms in terms of lenses, parametric maps, and reverse derivative categories. This foundation provides a powerful explanatory and unifying framework: it encompasses a variety of gradient descent algorithms such as ADAM, AdaGrad, and Nesterov momentum, as well as a variety of loss functions such as MSE and Softmax cross-entropy, and different architectures, shedding new light on their similarities and differences. Furthermore, our approach to learning has examples generalising beyond the familiar continuous domains (modelled in categories of smooth maps) and can be realised in the discrete setting of Boolean and polynomial circuits. We demonstrate the practical significance of our framework with an implementation in Python.
翻訳日:2024-04-04 03:59:36 公開日:2024-03-30
# 3DGSR: 3D Gaussian Splatting による表面再構成

3DGSR: Implicit Surface Reconstruction with 3D Gaussian Splatting ( http://arxiv.org/abs/2404.00409v1 )

ライセンス: Link先を確認
Xiaoyang Lyu, Yang-Tian Sun, Yi-Hua Huang, Xiuzhe Wu, Ziyi Yang, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi, (参考訳) 本稿では, 3DGS の高効率・レンダリング品質を継承しつつ, 複雑な細部で高精度な 3DGSR を実現する3D Gaussian Splatting (3DGS) を用いた暗黙的表面再構成法を提案する。 重要な洞察は、暗黙の符号付き距離場(SDF)を3Dガウスに組み込んで、それらが整列され、共同最適化されるようにすることである。 まず、SDF値を対応するガウスの不透明度に変換するSDF-to-opacity変換関数を導入する。 この関数は SDF と 3D ガウスアンを接続し、統一最適化と 3D ガウスアンの表面制約を強制することができる。 学習中、3Dガウスの最適化は、複雑な詳細の再構築を可能にするSDF学習のための監視信号を提供する。 しかし、これはガウシアンが占領した場所でSDFに緩やかな監視信号を提供するだけであり、これは連続したSDFを学ぶのに不十分である。 この制限に対処するために、ボリュームレンダリングを取り入れ、レンダリングされた幾何学的属性(深度、正規度)を3Dガウスから派生した属性と整合させる。 この整合正則化は、離散的な3次元ガウシアンによってカバーされていない場所に監督信号を導入し、ガウシアンサンプリング範囲の外側の余分な曲面を効果的に排除する。 我々は,3DGSの効率とレンダリング品質を維持しつつ,高品質な3D表面再構成を実現する3DGSR法について検討した。 さらに,本手法は,より効率的な学習プロセスとより優れたレンダリング品質を提供しながら,先行する表面再構成技術と良好に競合する。 コードはhttps://github.com/CVMI-Lab/3DGSRで入手できる。

In this paper, we present an implicit surface reconstruction method with 3D Gaussian Splatting (3DGS), namely 3DGSR, that allows for accurate 3D reconstruction with intricate details while inheriting the high efficiency and rendering quality of 3DGS. The key insight is incorporating an implicit signed distance field (SDF) within 3D Gaussians to enable them to be aligned and jointly optimized. First, we introduce a differentiable SDF-to-opacity transformation function that converts SDF values into corresponding Gaussians' opacities. This function connects the SDF and 3D Gaussians, allowing for unified optimization and enforcing surface constraints on the 3D Gaussians. During learning, optimizing the 3D Gaussians provides supervisory signals for SDF learning, enabling the reconstruction of intricate details. However, this only provides sparse supervisory signals to the SDF at locations occupied by Gaussians, which is insufficient for learning a continuous SDF. Then, to address this limitation, we incorporate volumetric rendering and align the rendered geometric attributes (depth, normal) with those derived from 3D Gaussians. This consistency regularization introduces supervisory signals to locations not covered by discrete 3D Gaussians, effectively eliminating redundant surfaces outside the Gaussian sampling range. Our extensive experimental results demonstrate that our 3DGSR method enables high-quality 3D surface reconstruction while preserving the efficiency and rendering quality of 3DGS. Besides, our method competes favorably with leading surface reconstruction techniques while offering a more efficient learning process and much better rendering qualities. The code will be available at https://github.com/CVMI-Lab/3DGSR.
翻訳日:2024-04-04 03:59:36 公開日:2024-03-30
# Aardvark Weather: エンドツーエンドのデータ駆動天気予報

Aardvark Weather: end-to-end data-driven weather forecasting ( http://arxiv.org/abs/2404.00411v1 )

ライセンス: Link先を確認
Anna Vaughan, Stratis Markou, Will Tebbutt, James Requeima, Wessel P. Bruinsma, Tom R. Andersson, Michael Herzog, Nicholas D. Lane, J. Scott Hosking, Richard E. Turner, (参考訳) 機械学習は中距離の天気予報に革命をもたらしている。 しかし、天気予報パイプラインの特定のコンポーネントや個々のコンポーネントにのみ適用されている。 したがって、これらのデータ駆動型アプローチは、計算コストが高く、エンドツーエンドの最適化をサポートしない従来の運用数値天気予報(NWP)システムからの入力なしでは展開できない。 この作業では、根本的に異なるアプローチを採用し、NWPパイプライン全体を機械学習モデルに置き換えます。 Aardvark Weatherは、生の観測を入力とし、グローバルとローカルの両方の予測を提供する、最初のエンドツーエンドのデータ駆動予測システムである。 これらのグローバルな予測は、1度の空間分解能と24時間の時間分解能で複数の圧力レベルで24変数に対して作成され、5日から7日のリードタイムでの時間的気候学に関して熟練している。 局所的な予測は、地理的に多様な気象観測所の温度、平均海面圧力、風速に対して作成され、複数のリードタイムでのIFS-HRES補間ベースラインに関して熟練している。 Aardvarkは、そのシンプルさとスケーラビリティにより、正確で効率的なデータ駆動の中距離天気予報を行うための新しいパラダイムへの扉を開く。

Machine learning is revolutionising medium-range weather prediction. However it has only been applied to specific and individual components of the weather prediction pipeline. Consequently these data-driven approaches are unable to be deployed without input from conventional operational numerical weather prediction (NWP) systems, which is computationally costly and does not support end-to-end optimisation. In this work, we take a radically different approach and replace the entire NWP pipeline with a machine learning model. We present Aardvark Weather, the first end-to-end data-driven forecasting system which takes raw observations as input and provides both global and local forecasts. These global forecasts are produced for 24 variables at multiple pressure levels at one-degree spatial resolution and 24 hour temporal resolution, and are skillful with respect to hourly climatology at five to seven day lead times. Local forecasts are produced for temperature, mean sea level pressure, and wind speed at a geographically diverse set of weather stations, and are skillful with respect to an IFS-HRES interpolation baseline at multiple lead-times. Aardvark, by virtue of its simplicity and scalability, opens the door to a new paradigm for performing accurate and efficient data-driven medium-range weather forecasting.
翻訳日:2024-04-04 03:59:36 公開日:2024-03-30
# SVGCraft: 包括的Canvasレイアウトによる単一オブジェクトテキストからSVGへの合成

SVGCraft: Beyond Single Object Text-to-SVG Synthesis with Comprehensive Canvas Layout ( http://arxiv.org/abs/2404.00412v1 )

ライセンス: Link先を確認
Ayan Banerjee, Nityanand Mathur, Josep Lladós, Umapada Pal, Anjan Dutta, (参考訳) VectorArtをテキストプロンプトから生成することは難しいビジョンタスクであり、目に見えない実体だけでなく、見えても現実的な描写を必要とする。 しかし、既存の研究は、複数の要素からなる総合的なシーンではなく、単一のオブジェクトの生成に限られている。 これに対し、本研究では、テキスト記述からシーン全体を描写したベクトルグラフィックスを作成するための新しいエンドツーエンドフレームワークであるSVGCraftを紹介した。 本フレームワークでは,テキストプロンプトからレイアウトを生成するための事前学習 LLM を用いることで,特定の有界ボックスにマスク付き潜伏剤を製造し,正確なオブジェクト配置を実現する手法を提案する。 注意マップを統合するための融合機構を導入し、コヒーレントな構成に拡散U-Netを使用し、描画プロセスを高速化する。 得られたSVGは、訓練済みエンコーダと不透明度変調によるLPIPS損失を用いて最適化され、類似性を最大化する。 さらに、この研究は、制約された環境でのキャンバスの完成を促進するための原始的な形状の可能性を探究する。 定性評価と定量的評価の両方を通じて、SVGCraftは、そのパフォーマンス指標(CLIP-T: 0.4563, Cosine similarity: 0.6342, Confusion: 0.66, Aesthetic: 6.7832)で証明されているように、抽象化、認識可能性、詳細に関する先行研究を上回ることが示されている。 コードはhttps://github.com/ayanban011/SVGCraft.comから入手できる。

Generating VectorArt from text prompts is a challenging vision task, requiring diverse yet realistic depictions of the seen as well as unseen entities. However, existing research has been mostly limited to the generation of single objects, rather than comprehensive scenes comprising multiple elements. In response, this work introduces SVGCraft, a novel end-to-end framework for the creation of vector graphics depicting entire scenes from textual descriptions. Utilizing a pre-trained LLM for layout generation from text prompts, this framework introduces a technique for producing masked latents in specified bounding boxes for accurate object placement. It introduces a fusion mechanism for integrating attention maps and employs a diffusion U-Net for coherent composition, speeding up the drawing process. The resulting SVG is optimized using a pre-trained encoder and LPIPS loss with opacity modulation to maximize similarity. Additionally, this work explores the potential of primitive shapes in facilitating canvas completion in constrained environments. Through both qualitative and quantitative assessments, SVGCraft is demonstrated to surpass prior works in abstraction, recognizability, and detail, as evidenced by its performance metrics (CLIP-T: 0.4563, Cosine Similarity: 0.6342, Confusion: 0.66, Aesthetic: 6.7832). The code will be available at https://github.com/ayanban011/SVGCraft.
翻訳日:2024-04-04 03:49:50 公開日:2024-03-30
# 言語モデルは宇宙船オペレーターである

Language Models are Spacecraft Operators ( http://arxiv.org/abs/2404.00413v1 )

ライセンス: Link先を確認
Victor Rodriguez-Fernandez, Alejandro Carrasco, Jason Cheng, Eli Scharf, Peng Mun Siew, Richard Linares, (参考訳) 近年,ユーザテキストプロンプトの内容に基づいて行動を起こす自律エージェントとして,Large Language Models (LLMs) が登場している。 我々は、これらの概念を宇宙の誘導、航法、制御の分野に適用し、LCMが自律衛星運用の意思決定プロセスにおいて重要な役割を果たすようにする。 この目標に向けた第一歩として、我々はKSPDG(Kerbal Space Program Differential Games)チャレンジのための純粋なLCMベースのソリューションを開発した。 提案手法は, プロンプトエンジニアリング, 数発のプロンプト, 微調整技術を利用して, 競争で2位にランクインしたLLMエージェントを効果的に作成する。 我々の知る限りでは、この研究はLLMエージェントを宇宙研究に統合する先駆的なものである。 コードはhttps://github.com/ARCLab-MIT/kspdg.comで入手できる。

Recent trends are emerging in the use of Large Language Models (LLMs) as autonomous agents that take actions based on the content of the user text prompts. We intend to apply these concepts to the field of Guidance, Navigation, and Control in space, enabling LLMs to have a significant role in the decision-making process for autonomous satellite operations. As a first step towards this goal, we have developed a pure LLM-based solution for the Kerbal Space Program Differential Games (KSPDG) challenge, a public software design competition where participants create autonomous agents for maneuvering satellites involved in non-cooperative space operations, running on the KSP game engine. Our approach leverages prompt engineering, few-shot prompting, and fine-tuning techniques to create an effective LLM-based agent that ranked 2nd in the competition. To the best of our knowledge, this work pioneers the integration of LLM agents into space research. Code is available at https://github.com/ARCLab-MIT/kspdg.
翻訳日:2024-04-04 03:49:50 公開日:2024-03-30
# CoDa:低リソースNLPのための制約付き生成ベースデータ拡張

CoDa: Constrained Generation based Data Augmentation for Low-Resource NLP ( http://arxiv.org/abs/2404.00415v1 )

ライセンス: Link先を確認
Chandra Kiran Reddy Evuru, Sreyan Ghosh, Sonal Kumar, Ramaneswaran S, Utkarsh Tyagi, Dinesh Manocha, (参考訳) 我々は、低リソース(データスカース)NLPのための制御可能で、効果的で、トレーニング不要なデータ拡張技術であるCoDa(Constrained Generation based Data Augmentation)を提案する。 我々のアプローチは、制約セットを満たすテキストを生成するために、既製の命令追従型Large Language Model(LLMs)を促すことに基づいている。 正確には、低リソースデータセットのすべてのインスタンスから単純な制約を抽出し、言語化してLLMに新しい多様なトレーニングインスタンスを生成するように促します。 以上の結果から,下流データセットにおける単純な制約に従う合成データは,極めて効果的な拡張として機能し,CoDaは複雑な復号時間制約生成技術や複雑なアルゴリズムによる微調整を必要とせず,最終的には少数のトレーニングインスタンスに偏りを生じさせることなく実現可能であることがわかった。 さらに、CoDaは、ユーザが拡張生成プロセスに対して明示的なコントロールを提供することで、複数のドメインへの容易に適応できる最初のフレームワークである。 3つのタスクと3つの低リソース設定にまたがる11のデータセットにまたがるCoDaの有効性を示す。 CoDaは、全てのベースラインを質的に、定量的に上回り、0.12%-7.19%改善した。 コードはここにある。 https://github.com/Sreyan88/CoDa

We present CoDa (Constrained Generation based Data Augmentation), a controllable, effective, and training-free data augmentation technique for low-resource (data-scarce) NLP. Our approach is based on prompting off-the-shelf instruction-following Large Language Models (LLMs) for generating text that satisfies a set of constraints. Precisely, we extract a set of simple constraints from every instance in the low-resource dataset and verbalize them to prompt an LLM to generate novel and diverse training instances. Our findings reveal that synthetic data that follows simple constraints in the downstream dataset act as highly effective augmentations, and CoDa can achieve this without intricate decoding-time constrained generation techniques or fine-tuning with complex algorithms that eventually make the model biased toward the small number of training instances. Additionally, CoDa is the first framework that provides users explicit control over the augmentation generation process, thereby also allowing easy adaptation to several domains. We demonstrate the effectiveness of CoDa across 11 datasets spanning 3 tasks and 3 low-resource settings. CoDa outperforms all our baselines, qualitatively and quantitatively, with improvements of 0.12%-7.19%. Code is available here: https://github.com/Sreyan88/CoDa
翻訳日:2024-04-04 03:49:50 公開日:2024-03-30
# Orchestrate Latent Expertise: マルチレベルスーパービジョンとリバースセルフ蒸留によるオンライン連続学習の促進

Orchestrate Latent Expertise: Advancing Online Continual Learning with Multi-Level Supervision and Reverse Self-Distillation ( http://arxiv.org/abs/2404.00417v1 )

ライセンス: Link先を確認
HongWei Yan, Liyuan Wang, Kaisheng Ma, Yi Zhong, (参考訳) 現実世界のダイナミックスに対応するために、人工知能システムはオンラインの方法で順次到着するコンテンツに対処する必要がある。 通常の連続学習(CL)は、各タスクのオフライントレーニングで破滅的な忘れに対処しようとするが、オンライン連続学習(OCL)は、1パスのデータストリームでCLを実行するより困難だが現実的な設定である。 現在のOCLメソッドは、主に古いトレーニングサンプルのメモリリプレイに依存している。 しかし、CLからOCLへの顕著な差は、リハーサルバッファの使用に伴う過剰適合性ジレンマ、すなわち、新しいトレーニングサンプル(アンダーフィッティング)の不十分な学習と、古いトレーニングサンプル(オーバーフィッティング)の繰り返し学習(オーバーフィッティング)に起因している。 この目的のために我々は,マルチレベルオンラインシーケンスエキスパート (MOSE) という新たなアプローチを導入する。 複数の段階にわたるスーパービジョン信号は、知識蒸留によって専門家から様々な強みを集めながら、新しいタスクの適切な収束を促進し、古いタスクのパフォーマンス低下を緩和する。 MOSEは、新しいサンプルの学習や、複数レベルの専門家による過去の知識の保存において顕著な効果を示し、OCLのパフォーマンスを最先端のベースライン(例えば、Split CIFAR-100で最大7.3%、Split Tiny-ImageNetで最大6.1%)よりも大幅に向上させる。

To accommodate real-world dynamics, artificial intelligence systems need to cope with sequentially arriving content in an online manner. Beyond regular Continual Learning (CL) attempting to address catastrophic forgetting with offline training of each task, Online Continual Learning (OCL) is a more challenging yet realistic setting that performs CL in a one-pass data stream. Current OCL methods primarily rely on memory replay of old training samples. However, a notable gap from CL to OCL stems from the additional overfitting-underfitting dilemma associated with the use of rehearsal buffers: the inadequate learning of new training samples (underfitting) and the repeated learning of a few old training samples (overfitting). To this end, we introduce a novel approach, Multi-level Online Sequential Experts (MOSE), which cultivates the model as stacked sub-experts, integrating multi-level supervision and reverse self-distillation. Supervision signals across multiple stages facilitate appropriate convergence of the new task while gathering various strengths from experts by knowledge distillation mitigates the performance decline of old tasks. MOSE demonstrates remarkable efficacy in learning new samples and preserving past knowledge through multi-level experts, thereby significantly advancing OCL performance over state-of-the-art baselines (e.g., up to 7.3% on Split CIFAR-100 and 6.1% on Split Tiny-ImageNet).
翻訳日:2024-04-04 03:49:50 公開日:2024-03-30
# 自律型ロボットの連続学習--プロトタイプに基づくアプローチ

Continual Learning for Autonomous Robots: A Prototype-based Approach ( http://arxiv.org/abs/2404.00418v1 )

ライセンス: Link先を確認
Elvin Hajizada, Balachandran Swaminathan, Yulia Sandamirskaya, (参考訳) 人間と動物は、監督と無監督の両方で、限られた量の知覚されたデータから人生を通して学習する。 未来の自律的でインテリジェントなロボットは、しばしば同じことをする。 既存の継続学習(CL)メソッドは、通常、ロボットの設定に直接適用されない。 数ショットのオンライン連続学習(FS-OCL)設定は、ロボットが非繰り返しスパースデータストリームから学ぶ必要があるより現実的なシナリオに対処するために提案されている。 真に自律的な生涯学習を可能にするためには、新規性の検出と新しい項目の学習を、監督なしに行う必要がある。 我々はこの課題に,CLP(Continuous Learning Prototypes)と呼ばれる新しいプロトタイプベースのアプローチで対処する。 FS-OCL学習の能力に加えて、CLPは新しい物体を検出し、監督なしで学習する。 忘れを緩和するために、CLPは、プロトタイプ毎に学習率を個別に適応する新しいメタ塑性機構を利用する。 CLPはリハーサルフリーであるため、メモリバッファを必要とせず、超低消費電力、リアルタイム処理能力、オンチップ学習を特徴とするニューロモルフィックハードウェアと互換性がある。 実際、我々は、IntelのニューロモーフィックチップLoihi 2.0をターゲットにした、ニューロモーフィックソフトウェアフレームワークLavaのCLPの簡単なバージョンをオープンソースにした。 ロボットビジョンデータセットOpenLORISでCLPを評価した。 低インスタンスのFS-OCLシナリオでは、CLPは最先端の結果を示す。 オープンな世界では、CLPは優れた精度で新規性を検出してリコールし、検出された新規クラスの特徴を監督せずに学習し、99%のベースクラスと65%/76%(5ショット/10ショット)の新規クラス精度の強いベースラインを達成する。

Humans and animals learn throughout their lives from limited amounts of sensed data, both with and without supervision. Autonomous, intelligent robots of the future are often expected to do the same. The existing continual learning (CL) methods are usually not directly applicable to robotic settings: they typically require buffering and a balanced replay of training data. A few-shot online continual learning (FS-OCL) setting has been proposed to address more realistic scenarios where robots must learn from a non-repeated sparse data stream. To enable truly autonomous life-long learning, an additional challenge of detecting novelties and learning new items without supervision needs to be addressed. We address this challenge with our new prototype-based approach called Continually Learning Prototypes (CLP). In addition to being capable of FS-OCL learning, CLP also detects novel objects and learns them without supervision. To mitigate forgetting, CLP utilizes a novel metaplasticity mechanism that adapts the learning rate individually per prototype. CLP is rehearsal-free, hence does not require a memory buffer, and is compatible with neuromorphic hardware, characterized by ultra-low power consumption, real-time processing abilities, and on-chip learning. Indeed, we have open-sourced a simple version of CLP in the neuromorphic software framework Lava, targetting Intel's neuromorphic chip Loihi 2. We evaluate CLP on a robotic vision dataset, OpenLORIS. In a low-instance FS-OCL scenario, CLP shows state-of-the-art results. In the open world, CLP detects novelties with superior precision and recall and learns features of the detected novel classes without supervision, achieving a strong baseline of 99% base class and 65%/76% (5-shot/10-shot) novel class accuracy.
翻訳日:2024-04-04 03:49:50 公開日:2024-03-30
# 視覚言語モデルは複合名詞を理解するか?

Do Vision-Language Models Understand Compound Nouns? ( http://arxiv.org/abs/2404.00419v1 )

ライセンス: Link先を確認
Sonal Kumar, Sreyan Ghosh, S Sakshi, Utkarsh Tyagi, Dinesh Manocha, (参考訳) CLIPのようなオープン語彙の視覚言語モデル(VLM)は、対照的な損失を用いて訓練され、テキストから画像への検索のための有望な新しいパラダイムとして登場した。 しかし、VLMは複合名詞(CN)(eg, lab coat)と、それらが理解している名詞(eg, lab)を理解できますか? 我々は400個のユニークなCNを持つ新しいベンチマークであるCompunをキュレートし、CNの解釈におけるVLMの有効性を評価する。 Compunベンチマークは、テキスト・ツー・イメージ検索のためのVLMに挑戦し、CNでテキストプロンプトが与えられた場合、CNを構成する構成名詞を示す2つの散逸した画像のうちCNを示す正しい画像を選択する。 次に、CLIPsが特定のタイプのCNを限定的に理解していることを強調するために、詳細な分析を行う。 最後に、CLIPのようなモデルで広く使われているテキストプロンプト用の手書きテンプレートを超えて、代替フレームワークを提案する。 我々は,CNを対象とする複数の多種多様なキャプションを生成するために,Large Language Modelを採用している。 提案手法はCLIPのCN理解をCompun上で8.25%改善する。 コードとベンチマークは、https://github.com/sonalkum/Compun.orgで公開されている。

Open-vocabulary vision-language models (VLMs) like CLIP, trained using contrastive loss, have emerged as a promising new paradigm for text-to-image retrieval. However, do VLMs understand compound nouns (CNs) (e.g., lab coat) as well as they understand nouns (e.g., lab)? We curate Compun, a novel benchmark with 400 unique and commonly used CNs, to evaluate the effectiveness of VLMs in interpreting CNs. The Compun benchmark challenges a VLM for text-to-image retrieval where, given a text prompt with a CN, the task is to select the correct image that shows the CN among a pair of distractor images that show the constituent nouns that make up the CN. Next, we perform an in-depth analysis to highlight CLIPs' limited understanding of certain types of CNs. Finally, we present an alternative framework that moves beyond hand-written templates for text prompts widely used by CLIP-like models. We employ a Large Language Model to generate multiple diverse captions that include the CN as an object in the scene described by the caption. Our proposed method improves CN understanding of CLIP by 8.25% on Compun. Code and benchmark are available at: https://github.com/sonalkum/Compun
翻訳日:2024-04-04 03:49:50 公開日:2024-03-30
# 科学ワークフロー開発におけるサービス選択決定の学習

Learning Service Selection Decision Making Behaviors During Scientific Workflow Development ( http://arxiv.org/abs/2404.00420v1 )

ライセンス: Link先を確認
Xihao Xie, Jia Zhang, Rahul Ramachandran, Tsengdar J. Lee, Seungwon Lee, (参考訳) ますます多くのソフトウェアサービスがインターネット上に公開され、科学ワークフローの構成プロセスにおけるサービスの推奨が大きな課題となっている。 本稿では,ワークフロー開発プロセスにおけるサービス表現とサービス選択決定の振る舞いを学習することで,ワークフロー開発プロセスにおける次のサービスを推奨する,新しいコンテキスト認識アプローチを提案する。 自然言語文の生成にインスパイアされた科学ワークフローの構成プロセスは、ワークフローのゴールのコンテキスト内でステップワイズプロシージャとして形式化され、次のサービスレコメンデーションの問題は次のワード予測にマップされる。 履歴サービスの依存関係は、まず知識グラフを構築するために、科学ワークフローの成果から抽出される。 サービスシーケンスは、多様なコンポジションパス生成戦略に基づいて生成される。 その後、生成した合成経路のコーパスを利用して、以前の意思決定戦略を研究する。 このようなトレーニングされた目標指向の次のサービス予測モデルは、ワークフロー構成プロセス中に上位K候補サービスを推奨するために使用されます。 実単語リポジトリに関する大規模な実験は、このアプローチの有効性を実証している。

Increasingly, more software services have been published onto the Internet, making it a big challenge to recommend services in the process of a scientific workflow composition. In this paper, a novel context-aware approach is proposed to recommending next services in a workflow development process, through learning service representation and service selection decision making behaviors from workflow provenance. Inspired by natural language sentence generation, the composition process of a scientific workflow is formalized as a step-wise procedure within the context of the goal of workflow, and the problem of next service recommendation is mapped to next word prediction. Historical service dependencies are first extracted from scientific workflow provenance to build a knowledge graph. Service sequences are then generated based on diverse composition path generation strategies. Afterwards, the generated corpus of composition paths are leveraged to study previous decision making strategies. Such a trained goal-oriented next service prediction model will be used to recommend top K candidate services during workflow composition process. Extensive experiments on a real-word repository have demonstrated the effectiveness of this approach.
翻訳日:2024-04-04 03:49:50 公開日:2024-03-30
# メモリダンプを閉じ続ける: パスワードマネージャーにデータ漏洩を暴露する

Keep your memory dump shut: Unveiling data leaks in password managers ( http://arxiv.org/abs/2404.00423v1 )

ライセンス: Link先を確認
Efstratios Chatzoglou, Vyron Kampourakis, Zisis Tsiatsikas, Georgios Karopoulos, Georgios Kambourakis, (参考訳) パスワード管理は長い間、永続的に困難なタスクでした。 これによってパスワード管理ソフトウェアが登場し、デスクトップやブラウザベースのアプリケーションなど、様々な形態で少なくとも25年間使われてきた。 この研究は、2ダースのパスワードマネージャ、12のデスクトップアプリケーション、12のブラウザプラグインの能力を評価し、6つの代表的なシナリオにおける秘密認証の秘密性を効果的に保護する。 我々の分析は、Password Manager(PM)がRAMに存在する期間に焦点を当てている。 これらのアプリケーションにはセンシティブな性質があるにもかかわらず、すべてのシナリオにおいて、3つのデスクトップPMアプリケーションと2つのブラウザプラグインだけがシステムメモリに平文パスワードを格納していないことを示す。 CVE-2023-23349を保護し、残りのベンダーは問題を無視するか、過小評価するかを選択した。

Password management has long been a persistently challenging task. This led to the introduction of password management software, which has been around for at least 25 years in various forms, including desktop and browser-based applications. This work assesses the ability of two dozen password managers, 12 desktop applications, and 12 browser-plugins, to effectively protect the confidentiality of secret credentials in six representative scenarios. Our analysis focuses on the period during which a Password Manager (PM) resides in the RAM. Despite the sensitive nature of these applications, our results show that across all scenarios, only three desktop PM applications and two browser plugins do not store plaintext passwords in the system memory. Oddly enough, at the time of writing, only two vendors recognized the exploit as a vulnerability, reserving CVE-2023-23349, while the rest chose to disregard or underrate the issue.
翻訳日:2024-04-04 03:49:50 公開日:2024-03-30
# 注意から利益へ--トランスフォーマーに基づく量的取引戦略

From attention to profit: quantitative trading strategy based on transformer ( http://arxiv.org/abs/2404.00424v1 )

ライセンス: Link先を確認
Zhaofeng Zhang, Banghao Chen, Shengxin Zhu, Nicolas Langrené, (参考訳) 伝統的な量的トレーディングの実践では、複雑でダイナミックな金融市場をナビゲートすることは永続的な課題である。 かつての機械学習のアプローチは、様々な市場の変数を完全に把握し、長期的な情報を無視し、利益につながる重要なシグナルに追いつくのに苦労してきた。 本稿では,拡張トランスアーキテクチャを導入し,モデルに基づく新しい要素を設計する。 感情分析から学習を移すことにより、提案モデルは、長距離依存を捕捉し、複雑なデータ関係をモデル化するだけでなく、数値入力でタスクを解くことができ、ある期間における将来のリターンを正確に予測することができる。 この研究は2010年から2019年にかけて、中国資本市場における4,601株の5000,000以上の転がるデータを集めている。 本研究は, 転倒率が低く, 半減期がより堅牢な他の100因子量戦略と比較して, 株価トレンド予測におけるモデルの性能が優れていることを示した。 特に、市場感情情報とともに、このモデルの革新的利用変革は、取引信号の正確性を大幅に向上させることで、量的取引戦略の将来に有望な影響をもたらすことが示されている。

In traditional quantitative trading practice, navigating the complicated and dynamic financial market presents a persistent challenge. Former machine learning approaches have struggled to fully capture various market variables, often ignore long-term information and fail to catch up with essential signals that may lead the profit. This paper introduces an enhanced transformer architecture and designs a novel factor based on the model. By transfer learning from sentiment analysis, the proposed model not only exploits its original inherent advantages in capturing long-range dependencies and modelling complex data relationships but is also able to solve tasks with numerical inputs and accurately forecast future returns over a period. This work collects more than 5,000,000 rolling data of 4,601 stocks in the Chinese capital market from 2010 to 2019. The results of this study demonstrated the model's superior performance in predicting stock trends compared with other 100 factor-based quantitative strategies with lower turnover rates and a more robust half-life period. Notably, the model's innovative use transformer to establish factors, in conjunction with market sentiment information, has been shown to enhance the accuracy of trading signals significantly, thereby offering promising implications for the future of quantitative trading strategies.
翻訳日:2024-04-04 03:49:50 公開日:2024-03-30
# 点雲からのマニフォールド情報抽出

Extracting Manifold Information from Point Clouds ( http://arxiv.org/abs/2404.00427v1 )

ライセンス: Link先を確認
Patrick Guidotti, (参考訳) カーネルベースの手法は、$\mathbb{R}^d$ の部分集合のシグネチャ(定義)関数を構成するために提案される。 部分集合は全次元多様体(開部分集合)から点雲(有限個の点)まで、任意の余次元の有界滑らかな多様体を含むことができる。 点雲の補間と解析が主な応用である。 正則性の観点からは、2つの極端なケースが考慮され、データセットは解析曲面、一方の極端、もう一方の極端、および他方のH\"古い連続曲面によって補間される。 符号関数は、有限次元線型問題の解である変換されたカーネルの線形結合として計算することができる。 一度それが得られれば、補間された曲面の次元と正規および曲率を推定することができる。 この手法はグローバルであり、局所的な近傍やデータセットに存在する他の構造についての明示的な知識を必要としない。 は、数値誤差やノイズによって破損したデータセットを扱うのに役立つことを証明している。 アプローチの根底にある解析構造は、点雲の場合に適用される前に一般に示される。

A kernel based method is proposed for the construction of signature (defining) functions of subsets of $\mathbb{R}^d$. The subsets can range from full dimensional manifolds (open subsets) to point clouds (a finite number of points) and include bounded smooth manifolds of any codimension. The interpolation and analysis of point clouds are the main application. Two extreme cases in terms of regularity are considered, where the data set is interpolated by an analytic surface, at the one extreme, and by a H\"older continuous surface, at the other. The signature function can be computed as a linear combination of translated kernels, the coefficients of which are the solution of a finite dimensional linear problem. Once it is obtained, it can be used to estimate the dimension as well as the normal and the curvatures of the interpolated surface. The method is global and does not require explicit knowledge of local neighborhoods or any other structure present in the data set. It admits a variational formulation with a natural ``regularized'' counterpart, that proves to be useful in dealing with data sets corrupted by numerical error or noise. The underlying analytical structure of the approach is presented in general before it is applied to the case of point clouds.
翻訳日:2024-04-04 03:49:50 公開日:2024-03-30
# 拡散と大域最適化によるマルチウェイポイントクラウドモザイク

Multiway Point Cloud Mosaicking with Diffusion and Global Optimization ( http://arxiv.org/abs/2404.00429v1 )

ライセンス: Link先を確認
Shengze Jin, Iro Armeni, Marc Pollefeys, Daniel Barath, (参考訳) 我々は、3Dスキャナーや移動RGB-Dカメラから得られる部分的な重なり合う点雲の集合を、統一された座標系にまとめるために設計された、マルチウェイポイントクラウドモザイク(水曜日に命名された)のための新しいフレームワークを紹介します。 アプローチの核となるのは、重複を反復的に識別し、注意点を洗練する学習されたペアワイズ登録アルゴリズムODINである。 さらに、全点の雲からのポーズグラフの構築、回転平均化、コンセンサス最大化と翻訳最適化の観点で最適に翻訳を推定する新しい頑健なアルゴリズムなどが含まれる。 最後に、点雲の回転と位置は拡散に基づくアプローチによって共同で最適化される。 本手法は,4つの多種多様な大規模データセットを用いて,全ベンチマークにおいて高いマージンで,最先端のペアとマルチウェイの登録結果を達成している。 私たちのコードとモデルはhttps://github.com/jinsz/Multiway-Point-Cloud-Mosaicking-with-Diffusion-and-Global-Optimizationで利用可能です。

We introduce a novel framework for multiway point cloud mosaicking (named Wednesday), designed to co-align sets of partially overlapping point clouds -- typically obtained from 3D scanners or moving RGB-D cameras -- into a unified coordinate system. At the core of our approach is ODIN, a learned pairwise registration algorithm that iteratively identifies overlaps and refines attention scores, employing a diffusion-based process for denoising pairwise correlation matrices to enhance matching accuracy. Further steps include constructing a pose graph from all point clouds, performing rotation averaging, a novel robust algorithm for re-estimating translations optimally in terms of consensus maximization and translation optimization. Finally, the point cloud rotations and positions are optimized jointly by a diffusion-based approach. Tested on four diverse, large-scale datasets, our method achieves state-of-the-art pairwise and multiway registration results by a large margin on all benchmarks. Our code and models are available at https://github.com/jinsz/Multiway-Point-Cloud-Mosaicking-with-Diffusion-and-Global-Optimization.
翻訳日:2024-04-04 03:49:50 公開日:2024-03-30
# AIによるストリートビューパターンによるルートの可視化

Visualizing Routes with AI-Discovered Street-View Patterns ( http://arxiv.org/abs/2404.00431v1 )

ライセンス: Link先を確認
Tsung Heng Wu, Md Amiruzzaman, Ye Zhao, Deepshikha Bhati, Jing Yang, (参考訳) ストリートレベルの視覚的外観は、構築された環境の理解、運転経路、関連する社会的・経済的要因など、社会システムの研究において重要な役割を担っている。 運転経路を計画するための典型的な地理的視覚化インタフェース(地図サービスなど)に統合されていない。 本稿では,この新たな可視化タスクについて,いくつかの新しいコントリビューションで検討する。 まず,一組のAI技術を試行し,視覚的外観特徴の定量化にセマンティック潜在ベクトルを用いる方法を提案する。 次に,大規模なストリートビュー画像群間の画像類似性を算出し,空間像パターンの探索を行う。 第三に、これらの発見パターンをルートプランナーに新しい可視化技術で統合する。 最後に、インタラクティブな視覚化プロトタイプであるVivaRoutesを紹介し、これらのパターンで視覚化がどのように活用され、ユーザーが複数のルートを効果的かつインタラクティブに探索するのに役立つかを示す。 さらに,VivaRoutesの有用性と有用性を評価するために,ユーザスタディを行った。

Street-level visual appearances play an important role in studying social systems, such as understanding the built environment, driving routes, and associated social and economic factors. It has not been integrated into a typical geographical visualization interface (e.g., map services) for planning driving routes. In this paper, we study this new visualization task with several new contributions. First, we experiment with a set of AI techniques and propose a solution of using semantic latent vectors for quantifying visual appearance features. Second, we calculate image similarities among a large set of street-view images and then discover spatial imagery patterns. Third, we integrate these discovered patterns into driving route planners with new visualization techniques. Finally, we present VivaRoutes, an interactive visualization prototype, to show how visualizations leveraged with these discovered patterns can help users effectively and interactively explore multiple routes. Furthermore, we conducted a user study to assess the usefulness and utility of VivaRoutes.
翻訳日:2024-04-04 03:49:50 公開日:2024-03-30
# 木推定器を用いた司法別法カテゴリーにおけるスペイン法定判決の自動分類

Automatic explanation of the classification of Spanish legal judgments in jurisdiction-dependent law categories with tree estimators ( http://arxiv.org/abs/2404.00437v1 )

ライセンス: Link先を確認
Jaime González-González, Francisco de Arriba-Pérez, Silvia García-Méndez, Andrea Busto-Castiñeira, Francisco J. González-Castaño, (参考訳) 論文では,判断から知識を抽出し,その側面を検出するために,自動法文分類システムが提案されている。 しかしながら、これらのシステムのほとんどは、モデルが解釈可能である場合でもブラックボックスである。 これは彼らの信頼性への懸念を引き起こすかもしれない。 そこで本研究では,自然言語処理(NLP)と機械学習(ML)を組み合わせて,法的テキストを説明可能な方法で分類するシステムを提案する。 木構造決定経路の判定としきい値の分岐に関する特徴を解析し,その情報を自然言語でユーザに提示する。 これは、NLPとMLを組み合わせた法的テキストの自動解析と、モデルの決定を自動的にエンドユーザに理解できるようにする説明可能な人工知能技術に関する最初の研究である。 さらに、法の専門家は、我々の解決策を検証し、この知識は、説明プロセスに"Expert-in-the-loop"辞書として組み込まれている。 法域別アノテートデータセットを用いた実験の結果, 精度が90%以上で, 精度の高い分類性能が得られ, その自動説明は, 非専門ユーザでも容易に理解できることがわかった。

Automatic legal text classification systems have been proposed in the literature to address knowledge extraction from judgments and detect their aspects. However, most of these systems are black boxes even when their models are interpretable. This may raise concerns about their trustworthiness. Accordingly, this work contributes with a system combining Natural Language Processing (NLP) with Machine Learning (ML) to classify legal texts in an explainable manner. We analyze the features involved in the decision and the threshold bifurcation values of the decision paths of tree structures and present this information to the users in natural language. This is the first work on automatic analysis of legal texts combining NLP and ML along with Explainable Artificial Intelligence techniques to automatically make the models' decisions understandable to end users. Furthermore, legal experts have validated our solution, and this knowledge has also been incorporated into the explanation process as "expert-in-the-loop" dictionaries. Experimental results on an annotated data set in law categories by jurisdiction demonstrate that our system yields competitive classification performance, with accuracy values well above 90%, and that its automatic explanations are easily understandable even to non-expert users.
翻訳日:2024-04-04 03:49:50 公開日:2024-03-30
# 分散ライオンを用いた分散学習の効率化

Communication Efficient Distributed Training with Distributed Lion ( http://arxiv.org/abs/2404.00438v1 )

ライセンス: Link先を確認
Bo Liu, Lemeng Wu, Lizhang Chen, Kaizhao Liang, Jiaxu Zhu, Chen Liang, Raghuraman Krishnamoorthi, Qiang Liu, (参考訳) Lionオプティマイザは、メモリ、計算、サンプル効率にアドバンテージを持つ大規模なAIモデルをトレーニングするAdamWと、有望な競合関係にある。 本稿では,分散学習環境におけるLionの革新的適応であるDistributed Lionを紹介する。 Lionのサイン演算子を活用するため、Distributed Lionでは、ワーカ間のバイナリまたは低い精度のベクトルを中央サーバに通信することしか必要とせず、通信コストを大幅に削減しています。 理論的解析により分散ライオンの収束特性が確認できる。 実証的な結果は、視覚と言語の問題の両方において、タスク、ワーカ数、バッチサイズにまたがる堅牢性を示す。 特に、Distributed Lionは、集約された勾配に適用された標準のLionやAdamWオプティマイザに匹敵する性能を得るが、通信帯域幅は大幅に減少する。 この機能は、特に大きなモデルのトレーニングに有利である。 さらに, 分散ライオンは, 深勾配圧縮や3次勾配など, 既存の効率的な分散手法と比較して, 帯域幅のバランスが良好であることを示す。

The Lion optimizer has been a promising competitor with the AdamW for training large AI models, with advantages on memory, computation, and sample efficiency. In this paper, we introduce Distributed Lion, an innovative adaptation of Lion for distributed training environments. Leveraging the sign operator in Lion, our Distributed Lion only requires communicating binary or lower-precision vectors between workers to the center server, significantly reducing the communication cost. Our theoretical analysis confirms Distributed Lion's convergence properties. Empirical results demonstrate its robustness across a range of tasks, worker counts, and batch sizes, on both vision and language problems. Notably, Distributed Lion attains comparable performance to standard Lion or AdamW optimizers applied on aggregated gradients, but with significantly reduced communication bandwidth. This feature is particularly advantageous for training large models. In addition, we also demonstrate that Distributed Lion presents a more favorable performance-bandwidth balance compared to existing efficient distributed methods such as deep gradient compression and ternary gradients.
翻訳日:2024-04-04 03:49:50 公開日:2024-03-30
# DOCMASTER: 文書質問応答におけるアノテーション・トレーニング・推論の統合プラットフォーム

DOCMASTER: A Unified Platform for Annotation, Training, & Inference in Document Question-Answering ( http://arxiv.org/abs/2404.00439v1 )

ライセンス: Link先を確認
Alex Nguyen, Zilong Wang, Jingbo Shang, Dheeraj Mekala, (参考訳) 自然言語処理モデルをPDF文書に適用することは、様々なビジネスアプリケーションにとって重要なことですが、この目的のためのトレーニングモデルの課題は、特定のハードルのためにビジネスで持続しています。 これには、トレーニングデータのキュレーションにテキストとレイアウト情報を解析する必要のあるPDFフォーマットを扱う複雑さや、プライバシ保護アノテーションツールの欠如が含まれている。 本稿では,PDF文書の注釈付け,モデルトレーニング,推論のための統一プラットフォームであるDOCMASTERについて紹介する。 アノテーションインターフェースにより、ユーザは質問を入力し、PDFファイル内のテキストスパンを回答としてハイライトし、レイアウト情報とテキストスパンを保存できる。 さらに、DOCMASTERは、最先端のレイアウト・アウェアとテキストモデルの両方をサポートし、総合的なトレーニングを目的としている。 重要なのは、アノテーション、トレーニング、推論がデバイス上で発生するため、プライバシも保護されることだ。 このプラットフォームは、カリフォルニア大学サンディエゴ校(UCSD)国際サービス・エンゲージメントオフィス(ISEO)が相当量のPDF文書を処理するために使用しているAIアシスタントなど、文書分析に関するいくつかの研究プロトタイプの推進に役立っている。

The application of natural language processing models to PDF documents is pivotal for various business applications yet the challenge of training models for this purpose persists in businesses due to specific hurdles. These include the complexity of working with PDF formats that necessitate parsing text and layout information for curating training data and the lack of privacy-preserving annotation tools. This paper introduces DOCMASTER, a unified platform designed for annotating PDF documents, model training, and inference, tailored to document question-answering. The annotation interface enables users to input questions and highlight text spans within the PDF file as answers, saving layout information and text spans accordingly. Furthermore, DOCMASTER supports both state-of-the-art layout-aware and text models for comprehensive training purposes. Importantly, as annotations, training, and inference occur on-device, it also safeguards privacy. The platform has been instrumental in driving several research prototypes concerning document analysis such as the AI assistant utilized by University of California San Diego's (UCSD) International Services and Engagement Office (ISEO) for processing a substantial volume of PDF documents.
翻訳日:2024-04-04 03:49:50 公開日:2024-03-30
# 量子進化の定常状態の数

Number of steady states of quantum evolutions ( http://arxiv.org/abs/2404.00440v1 )

ライセンス: Link先を確認
Daniele Amato, Paolo Facchi, (参考訳) 開量子系の離散時間および連続時間マルコフ進化の定常状態と漸近状態の数について、急激な普遍的上界を証明した。 境界は系の次元にのみ依存し、力学の詳細には依存しないことを示す。 マルコフ進化に関する最近のスペクトル予想から導かれる同様の境界との比較も提供される。

We prove sharp universal upper bounds on the number of steady and asymptotic states of discrete- and continuous-time Markovian evolutions of open quantum systems. We show that the bounds depend only on the dimension of the system and not on the details of the dynamics. A comparison with similar bounds deriving from a recent spectral conjecture for Markovian evolutions is also provided.
翻訳日:2024-04-04 03:40:06 公開日:2024-03-30
# ジェスチャー応答性と音楽伴奏を考慮した対話型マルチロボット群

Interactive Multi-Robot Flocking with Gesture Responsiveness and Musical Accompaniment ( http://arxiv.org/abs/2404.00442v1 )

ライセンス: Link先を確認
Catie Cuan, Kyle Jeffrey, Kim Kleiven, Adrian Li, Emre Fisher, Matt Harrison, Benjie Holson, Allison Okamura, Matt Bennice, (参考訳) ロボット工学の研究者たちは、協力的な操作から捜索、救助まで、何十年もの間、マルチロボットシステムの様々なタスクを追求してきた。 これらのタスクは、古典的なロボットタスクのマルチロボット拡張であり、スピードや効率といった次元に最適化されることが多い。 ロボットが商業的・研究的な環境から日常的な環境へと移行するにつれ、エンゲージメントやエンターテイメントといった社会的課題がますます重要になっている。 この研究は説得力のあるマルチロボットタスクを示し、その主な目的は熱意と関心を喚起することである。 このタスクでは、人間と一緒に動き、ダイナミックで表現力のあるロボット群に参加することが目標である。 この目的に向けて、研究チームはロボットの動きとジェスチャーや音といった対話モードを関連づけるアルゴリズムを開発した。 提案手法は,(1)人間エージェントとロボットエージェントを含むグループナビゲーションアルゴリズム,(2)リアルタイム,ヒトロボットの群れ操作のためのジェスチャー応答型アルゴリズム,(3)群れ動作を変更するための重みモード特徴付けシステム,(4)動的適応型学習システム内での振付者の好みを符号化する方法である。 人間の振付師が選択した重みモード,学習モデル,サブセットリストの3つの条件下で群れと相互作用しながら,個人の行動を理解する実験を行った。 実験の結果, 重みモード選択の影響を受けないことがわかった。 この研究は、マルチロボットシステム設計と実行におけるエンゲージメントの顕在化など、タスクの異なる目的がどうあるべきかを解明し、マルチロボットタスクの領域を広げる。

For decades, robotics researchers have pursued various tasks for multi-robot systems, from cooperative manipulation to search and rescue. These tasks are multi-robot extensions of classical robotic tasks and often optimized on dimensions such as speed or efficiency. As robots transition from commercial and research settings into everyday environments, social task aims such as engagement or entertainment become increasingly relevant. This work presents a compelling multi-robot task, in which the main aim is to enthrall and interest. In this task, the goal is for a human to be drawn to move alongside and participate in a dynamic, expressive robot flock. Towards this aim, the research team created algorithms for robot movements and engaging interaction modes such as gestures and sound. The contributions are as follows: (1) a novel group navigation algorithm involving human and robot agents, (2) a gesture responsive algorithm for real-time, human-robot flocking interaction, (3) a weight mode characterization system for modifying flocking behavior, and (4) a method of encoding a choreographer's preferences inside a dynamic, adaptive, learned system. An experiment was performed to understand individual human behavior while interacting with the flock under three conditions: weight modes selected by a human choreographer, a learned model, or subset list. Results from the experiment showed that the perception of the experience was not influenced by the weight mode selection. This work elucidates how differing task aims such as engagement manifest in multi-robot system design and execution, and broadens the domain of multi-robot tasks.
翻訳日:2024-04-04 03:40:06 公開日:2024-03-30
# 2体ディラック方程式の新しい解法:ポジトロニウムにおける対称性違反項の重み推定

A new method for the solution of the two-body Dirac equation: Estimation of the weights of $C$, $P$ and $CP$ symmetry violating terms in positronium ( http://arxiv.org/abs/2404.00444v1 )

ライセンス: Link先を確認
E. M. Tursunov, Sh. G. Norbutaev, (参考訳) ポジトロニウムの2体境界状態ディラック方程式の解法として新しい理論法を開発した。 クーロンポテンシャルのみがディラック・ハミルトンに含まれていた。 2体のディラック・ハミルトン多様体は、四進数 4$ のエルミート行列形式で書くことができ、$P$、$C$、$CP$対称性の違反の原因となる項を含むことが示されている。 振動子基底関数を用いた変分法で実行されるパラポジトロニウム基底状態のエネルギースペクトルの数値計算結果は、T.C. Scottらによる高精度有限要素法とよく一致している。 C$ と $CP$ 対称性違反成分の重みは、それぞれこの値の 2/3 と 1/3 の部分と等しい。 これらの数は、現在の実験施設の精度限界よりも2桁以下である。

A new theoretical method is developed for the solution of the two-body bound-state Dirac equation for positronium. Only Coulomb potential was included in the Dirac Hamiltonian. It is shown that the two-body Dirac Hamiltonian can be written in the Hermitian matrix form of the $4\times 4$ size and contains terms, responsible for the violation of the $P$, $C$, and $CP$ symmetries. Numerical results for the energy spectrum of the para- and ortho-positronium ground states performed within the variational method using the harmonic oscillator basis functions are in good agreement with a high-precision finite-element method of T.C. Scott et al. The weights of the $P$ and $CP$ symmetry-violating components in the para-positronium ground state are identical to the weight of the $P$ symmetry-violating component of the ortho-Ps and are estimated to be 6.6E-6. The weights of the $C$ and $CP$ symmetry-violating components of the ortho-Ps are equal to the 2/3 and 1/3 parts of this value, respectively. These numbers are less by two orders of magnitude than the precision limit of current experimental facilities.
翻訳日:2024-04-04 03:40:06 公開日:2024-03-30
# ツール学習の強化を目的とした検索項目の計画と編集

Planning and Editing What You Retrieve for Enhanced Tool Learning ( http://arxiv.org/abs/2404.00450v1 )

ライセンス: Link先を確認
Tenghao Huang, Dongwon Jung, Muhao Chen, (参考訳) 外部ツールをLLM(Large Language Models)に統合する最近の進歩は、数学的推論、コードジェネレータ、スマートアシスタントなど、新たなフロンティアを開拓している。 しかし、既存の手法は、単純なワンタイム検索戦略に依存しており、関連ツールを効果的かつ正確にショートリスト化するには不十分である。 本稿では,<Plan-and-Retrieve (P\&R)' と ``Edit-and-Ground (E\&G)' のパラダイムを包含した新しいモデル名アプローチを提案する。 P\&Rパラダイムは、関連するツールをショートリストするニューラル検索モジュールと、複雑なクエリを実行可能なタスクに分解するLLMベースのクエリプランナで構成され、ツール利用の有効性を高める。 E\&Gパラダイムは、LCMを使用して、ユーザシナリオに基づいたツール記述を強化し、ユーザクエリとツール機能のギャップを埋める。 実験の結果、これらのパラダイムはツール検索タスクにおけるリコールとNDCGを大幅に改善し、現在の最先端モデルを大きく上回っていることがわかった。

Recent advancements in integrating external tools with Large Language Models (LLMs) have opened new frontiers, with applications in mathematical reasoning, code generators, and smart assistants. However, existing methods, relying on simple one-time retrieval strategies, fall short on effectively and accurately shortlisting relevant tools. This paper introduces a novel \modelname (\modelmeaning) approach, encompassing ``Plan-and-Retrieve (P\&R)'' and ``Edit-and-Ground (E\&G)'' paradigms. The P\&R paradigm consists of a neural retrieval module for shortlisting relevant tools and an LLM-based query planner that decomposes complex queries into actionable tasks, enhancing the effectiveness of tool utilization. The E\&G paradigm utilizes LLMs to enrich tool descriptions based on user scenarios, bridging the gap between user queries and tool functionalities. Experiment results demonstrate that these paradigms significantly improve the recall and NDCG in tool retrieval tasks, significantly surpassing current state-of-the-art models.
翻訳日:2024-04-04 03:40:06 公開日:2024-03-30
# QuaRot: 回転LDMにおける外周フリー4ビット推論

QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs ( http://arxiv.org/abs/2404.00456v1 )

ライセンス: Link先を確認
Saleh Ashkboos, Amirkeivan Mohtashami, Maximilian L. Croci, Bo Li, Martin Jaggi, Dan Alistarh, Torsten Hoefler, James Hensman, (参考訳) ローテーションに基づく新しい量子化方式であるQuaRotを導入し、全ての重み、アクティベーション、KVキャッシュを含むLLMを4ビットで量子化する。 QuaRotは、出力を変更することなく、隠された状態から外れ値を取り除き、量子化を容易にする方法でLCMを回転させる。 この計算不変性は、LLMの隠れ状態(残留状態)やフィードフォワード成分の活性化、注意機構の側面、KVキャッシュに適用される。 その結果、すべての行列乗法が4ビットで実行され、高い精度で保持するチャネルが特定されない量子化モデルとなった。 我々の量子化LLaMa2-70Bモデルは、少なくとも0.29 WikiText-2パープレキシティの損失があり、ゼロショット性能の99%を維持している。 コードは、https://github.com/spcl/QuaRot.comで入手できる。

We introduce QuaRot, a new Quantization scheme based on Rotations, which is able to quantize LLMs end-to-end, including all weights, activations, and KV cache in 4 bits. QuaRot rotates LLMs in a way that removes outliers from the hidden state without changing the output, making quantization easier. This computational invariance is applied to the hidden state (residual) of the LLM, as well as to the activations of the feed-forward components, aspects of the attention mechanism and to the KV cache. The result is a quantized model where all matrix multiplications are performed in 4-bits, without any channels identified for retention in higher precision. Our quantized LLaMa2-70B model has losses of at most 0.29 WikiText-2 perplexity and retains 99% of the zero-shot performance. Code is available at: https://github.com/spcl/QuaRot.
翻訳日:2024-04-04 03:40:06 公開日:2024-03-30
# MetaIE: 情報抽出作業におけるLCMからのメタモデル抽出

MetaIE: Distilling a Meta Model from LLM for All Kinds of Information Extraction Tasks ( http://arxiv.org/abs/2404.00457v1 )

ライセンス: Link先を確認
Letian Peng, Zilong Wang, Feng Yao, Zihan Wang, Jingbo Shang, (参考訳) 情報抽出(IE)は、大規模言語モデル(LLM)を促進する自然言語処理の基本的な領域であり、文脈内例であっても、非常に小さなIEデータセットで調整された小さなLMを破ることはできない。 我々は、名前付きエンティティ認識や関係抽出といったIEタスクが、ラベルとスパンのマッチングとして形式化できる重要な情報を抽出することに焦点を当てていることを観察する。 本稿では, メタモデルとして小さなLMをメタモデルとして構築するための新しいフレームワークであるMetaIEを提案する。 特にMetaIEはラベル・ツー・スパン方式に従ってLDMからシンボル蒸留により小型のLMを得る。 我々は,言語モデルの事前学習データセット(例えば,実装中のOpenWebText)から文を抽出し,LLMに「重要な情報」の型付きスパンを識別するよう促すことにより,蒸留データセットを構築した。 数ショットの適応設定でメタモデルを評価する。 6つのIEタスクから得られた13のデータセットの大規模な結果から、MetaIEはIEデータセットの複数ショットチューニングの出発点となり、(1)バニラ言語モデルの事前トレーニング、(2)人間のアノテーションによるマルチIEタスク事前トレーニング、(3)LLMからの単一IEタスクシンボル蒸留よりも優れたメタモデルが得られることが確認された。 さらに, 蒸留データセットのサイズ, メタモデルアーキテクチャ, メタモデルのサイズなど, MetaIE の包括的分析を行う。

Information extraction (IE) is a fundamental area in natural language processing where prompting large language models (LLMs), even with in-context examples, cannot defeat small LMs tuned on very small IE datasets. We observe that IE tasks, such as named entity recognition and relation extraction, all focus on extracting important information, which can be formalized as a label-to-span matching. In this paper, we propose a novel framework MetaIE to build a small LM as meta-model by learning to extract "important information", i.e., the meta-understanding of IE, so that this meta-model can be adapted to all kind of IE tasks effectively and efficiently. Specifically, MetaIE obtains the small LM via a symbolic distillation from an LLM following the label-to-span scheme. We construct the distillation dataset via sampling sentences from language model pre-training datasets (e.g., OpenWebText in our implementation) and prompting an LLM to identify the typed spans of "important information". We evaluate the meta-model under the few-shot adaptation setting. Extensive results on 13 datasets from 6 IE tasks confirm that MetaIE can offer a better starting point for few-shot tuning on IE datasets and outperform other meta-models from (1) vanilla language model pre-training, (2) multi-IE-task pre-training with human annotations, and (3) single-IE-task symbolic distillation from LLM. Moreover, we provide comprehensive analyses of MetaIE, such as the size of the distillation dataset, the meta-model architecture, and the size of the meta-model.
翻訳日:2024-04-04 03:40:06 公開日:2024-03-30
# One-Size-Fits-Allを超えて:モデル選択を埋め込みするためのマルチドメインマルチタスクフレームワーク

Beyond One-Size-Fits-All: Multi-Domain, Multi-Task Framework for Embedding Model Selection ( http://arxiv.org/abs/2404.00458v1 )

ライセンス: Link先を確認
Vivek Khetan, (参考訳) 本稿では,自然言語処理(NLP)タスクにおける最も効果的な埋め込みモデルの選択を支援するフレームワークの開発に向けた体系的なアプローチを提案する。

This position paper proposes a systematic approach towards developing a framework to help select the most effective embedding models for natural language processing (NLP) tasks, addressing the challenge posed by the proliferation of both proprietary and open-source encoder models.
翻訳日:2024-04-04 03:40:06 公開日:2024-03-30
# NumeroLogic: 拡張LDMの数値推論のための数値符号化

NumeroLogic: Number Encoding for Enhanced LLMs' Numerical Reasoning ( http://arxiv.org/abs/2404.00459v1 )

ライセンス: Link先を確認
Eli Schwartz, Leshem Choshen, Joseph Shtok, Sivan Doveh, Leonid Karlinsky, Assaf Arbelle, (参考訳) 言語モデルは数値データを扱い、算術演算を行うのに苦労する。 我々は、この制限は直観的でないテキスト数表現に部分的に帰属できると仮定する。 数字が因果言語モデルで読み取られたり生成されたりすると、その位置値(例えば、数千対数百)が全数値が処理されるまでは分からない。 この問題に対処するために,各数字の前に数字の個数を含めることで,数がどのように表現されるかを簡単に調整する手法を提案する。 例えば、"42"の代わりに、新しいフォーマットとして"{2:42}"を使うことを提案する。 このアプローチは、NumeroLogicと呼ばれ、CoT(Chain of Thought)として機能することで、数生成にさらなる利点をもたらす。 モデルにまず数字の数を考慮させることで、実際の数字を生成する前に推論プロセスを強化する。 NumeroLogicフォーマッティングの有効性を示すために,算術的タスクを用いる。 さらに,NumeroLogicの自然言語モデリングへの適用性を実証し,MMLUベンチマークにおける言語理解性能を改善した。

Language models struggle with handling numerical data and performing arithmetic operations. We hypothesize that this limitation can be partially attributed to non-intuitive textual numbers representation. When a digit is read or generated by a causal language model it does not know its place value (e.g. thousands vs. hundreds) until the entire number is processed. To address this issue, we propose a simple adjustment to how numbers are represented by including the count of digits before each number. For instance, instead of "42", we suggest using "{2:42}" as the new format. This approach, which we term NumeroLogic, offers an added advantage in number generation by serving as a Chain of Thought (CoT). By requiring the model to consider the number of digits first, it enhances the reasoning process before generating the actual number. We use arithmetic tasks to demonstrate the effectiveness of the NumeroLogic formatting. We further demonstrate NumeroLogic applicability to general natural language modeling, improving language understanding performance in the MMLU benchmark.
翻訳日:2024-04-04 03:40:06 公開日:2024-03-30
# コントラストからのショートカット: プロンプト学習における効果的かつ包括的クリーンラベル攻撃

Shortcuts Arising from Contrast: Effective and Covert Clean-Label Attacks in Prompt-Based Learning ( http://arxiv.org/abs/2404.00461v1 )

ライセンス: Link先を確認
Xiaopeng Xie, Ming Yan, Xiwen Zhou, Chenlong Zhao, Suli Wang, Yong Zhang, Joey Tianyi Zhou, (参考訳) プロンプトに基づく学習パラダイムは,プレトレーニング言語モデル(PLM)の適応性向上に顕著な効果を示した。 しかし、この学習パラダイムはバックドア攻撃に弱いことが示されている。 現在のクリーンラベル攻撃は、特定のプロンプトをトリガーとして用いており、外部のトリガーを必要とせずに成功し、毒サンプルの正確なラベル付けを確実にすることができる。 従来の負データ拡張手法を用いることで,クリーンラベル環境では,有効性とステルスネスのトレードオフが困難であることが判明した。 この問題に対処するにあたって、私たちはバックドアがショートカットとして機能し、このショートカットがトリガーと中毒に使用されるデータとのコントラストに起因しているという仮説に着想を得ています。 本研究では、アクティベーション値を活用し、トリガ設計とデータ選択戦略を統合して、より強力なショートカット機能を実現するコントラストショートカットインジェクション(CSI)手法を提案する。 フルショットおよび少数ショットのテキスト分類タスクに関する広範な実験により、CSIの高有効性と高い盗聴性を低毒性率で実証的に検証した。 特に、この2つのアプローチが、フルショットと数ショットの設定でそれぞれ主要な役割を担っていることがわかりました。

Prompt-based learning paradigm has demonstrated remarkable efficacy in enhancing the adaptability of pretrained language models (PLMs), particularly in few-shot scenarios. However, this learning paradigm has been shown to be vulnerable to backdoor attacks. The current clean-label attack, employing a specific prompt as a trigger, can achieve success without the need for external triggers and ensure correct labeling of poisoned samples, which is more stealthy compared to the poisoned-label attack, but on the other hand, it faces significant issues with false activations and poses greater challenges, necessitating a higher rate of poisoning. Using conventional negative data augmentation methods, we discovered that it is challenging to trade off between effectiveness and stealthiness in a clean-label setting. In addressing this issue, we are inspired by the notion that a backdoor acts as a shortcut and posit that this shortcut stems from the contrast between the trigger and the data utilized for poisoning. In this study, we propose a method named Contrastive Shortcut Injection (CSI), by leveraging activation values, integrates trigger design and data selection strategies to craft stronger shortcut features. With extensive experiments on full-shot and few-shot text classification tasks, we empirically validate CSI's high effectiveness and high stealthiness at low poisoning rates. Notably, we found that the two approaches play leading roles in full-shot and few-shot settings, respectively.
翻訳日:2024-04-04 03:40:06 公開日:2024-03-30
# NLPモデルにおける統計的および因果性フェアネスの対応

Addressing Both Statistical and Causal Gender Fairness in NLP Models ( http://arxiv.org/abs/2404.00463v1 )

ライセンス: Link先を確認
Hannah Chen, Yangfeng Ji, David Evans, (参考訳) 統計的公正性は、保護されたすべてのグループに対して同等の結果を規定するが、因果公正性は、モデルが保護された特性に関係なく、個人に対して同じ予測を行うことを規定する。 CDA(Counterfactual Data Augmentation)は、NLPモデルのバイアスを軽減するために有効であるが、CDAで訓練されたモデルは、因果フェアネスの概念と密接に結びついているメトリクスでのみ評価されることが多い。 本研究では,NLPモデルにおける性別バイアスの統計的および因果的偏りの評価を行い,これらの手法は,対象の指標によって測定された偏りを低減するのに有効であるが,他の偏り指標の結果を必ずしも改善しないことを示した。 統計的および因果的脱バイアス法の組み合わせにより,両指標間の偏差を低減できることを実証した。

Statistical fairness stipulates equivalent outcomes for every protected group, whereas causal fairness prescribes that a model makes the same prediction for an individual regardless of their protected characteristics. Counterfactual data augmentation (CDA) is effective for reducing bias in NLP models, yet models trained with CDA are often evaluated only on metrics that are closely tied to the causal fairness notion; similarly, sampling-based methods designed to promote statistical fairness are rarely evaluated for causal fairness. In this work, we evaluate both statistical and causal debiasing methods for gender bias in NLP models, and find that while such methods are effective at reducing bias as measured by the targeted metric, they do not necessarily improve results on other bias metrics. We demonstrate that combinations of statistical and causal debiasing techniques are able to reduce bias measured through both types of metrics.
翻訳日:2024-04-04 03:40:06 公開日:2024-03-30
# アルツハイマー病およびそれに関連する認知症における不均一性を特徴付けるためのEHRからのプレトレーニングおよびトランスフォーマー由来の埋め込みの活用

Leveraging Pre-trained and Transformer-derived Embeddings from EHRs to Characterize Heterogeneity Across Alzheimer's Disease and Related Dementias ( http://arxiv.org/abs/2404.00464v1 )

ライセンス: Link先を確認
Matthew West, Colin Magdamo, Lily Cheng, Yingnan He, Sudeshna Das, (参考訳) アルツハイマー病は進行性の神経変性疾患であり、世界中で5000万人に影響を与える。 かなりの健康上の負担にもかかわらず、この病気に対する治療は限られており、その根本原因はよく分かっていない。 これまでの研究は、臨床に有意なサブタイプの存在を示唆しており、それは異なる病因、疾患コース、究極的には適切な治療に対応している可能性がある。 ここでは、記憶障害患者のコホートから電子健康記録(EHR)の教師なし学習技術を用いて、この疾患集団の不均一性を特徴づける。 患者EHRをエンコードするために、医療コードのための事前訓練された埋め込みと、トランスフォーマー由来の無料テキストのクリニカルBERT埋め込みを使用する。 共同性および共有テキストの特徴に基づくサブポピュレーションの存在を特定し,その臨床的意義について考察した。

Alzheimer's disease is a progressive, debilitating neurodegenerative disease that affects 50 million people globally. Despite this substantial health burden, available treatments for the disease are limited and its fundamental causes remain poorly understood. Previous work has suggested the existence of clinically-meaningful sub-types, which it is suggested may correspond to distinct etiologies, disease courses, and ultimately appropriate treatments. Here, we use unsupervised learning techniques on electronic health records (EHRs) from a cohort of memory disorder patients to characterise heterogeneity in this disease population. Pre-trained embeddings for medical codes as well as transformer-derived Clinical BERT embeddings of free text are used to encode patient EHRs. We identify the existence of sub-populations on the basis of comorbidities and shared textual features, and discuss their clinical significance.
翻訳日:2024-04-04 03:40:06 公開日:2024-03-30
# 垂直的フェデレーション学習における計算とコミュニケーションの効率化

Computation and Communication Efficient Lightweighting Vertical Federated Learning ( http://arxiv.org/abs/2404.00466v1 )

ライセンス: Link先を確認
Heqiang Wang, Jieming Bian, Lei Wang, (参考訳) フェデレートラーニング(FL)における計算とコミュニケーションの効率の探索は、顕著かつ重要な研究分野として現れている。 これらの効率性を高めるための既存の取り組みは、水平FLに重点を置いているが、垂直FLの異なるプロセスとモデル構造は、水平FLに基づく直接適用を妨げている。 そこで我々は,LVFL(Lightweight Vertical Federated Learning)の概念を導入し,計算効率と通信効率を両立させた。 このアプローチには、特徴モデルの分離された軽量化戦略、計算効率の向上、および通信効率の向上のための機能埋め込みが含まれる。 さらに,通信と計算の軽量化の両面で考慮したLVFLアルゴリズムの収束バウンダリを確立する。 画像分類データセット上でのアルゴリズムの評価により,LVFLは頑健な学習性能を維持しつつ,計算と通信の要求を大幅に軽減することがわかった。 この研究は、垂直FL内の通信と計算効率のギャップを効果的に解決する。

The exploration of computational and communication efficiency within Federated Learning (FL) has emerged as a prominent and crucial field of study. While most existing efforts to enhance these efficiencies have focused on Horizontal FL, the distinct processes and model structures of Vertical FL preclude the direct application of Horizontal FL-based techniques. In response, we introduce the concept of Lightweight Vertical Federated Learning (LVFL), targeting both computational and communication efficiencies. This approach involves separate lightweighting strategies for the feature model, to improve computational efficiency, and for feature embedding, to enhance communication efficiency. Moreover, we establish a convergence bound for our LVFL algorithm, which accounts for both communication and computational lightweighting ratios. Our evaluation of the algorithm on a image classification dataset reveals that LVFL significantly alleviates computational and communication demands while preserving robust learning performance. This work effectively addresses the gaps in communication and computational efficiency within Vertical FL.
翻訳日:2024-04-04 03:40:06 公開日:2024-03-30
# SceneGraphLoc: 3D Scene Graph上でのクロスモーダル粗なビジュアルローカライゼーション

SceneGraphLoc: Cross-Modal Coarse Visual Localization on 3D Scene Graphs ( http://arxiv.org/abs/2404.00469v1 )

ライセンス: Link先を確認
Yang Miao, Francis Engelmann, Olga Vysotska, Federico Tombari, Marc Pollefeys, Dániel Béla Baráth, (参考訳) 本稿では,3次元シーングラフのデータベースで表されるマルチモーダル参照マップ内の入力画像の局所化という,新たな問題を紹介する。 これらのグラフは、オブジェクトレベルの点雲、画像、属性、オブジェクト間の関係を含む複数のモードから構成されており、広範囲な画像データベースに依存する従来の方法に対する軽量で効率的な代替手段を提供する。 提案手法であるSceneGraphLocは、利用可能なモダリティを考慮し、シーングラフ内の各ノード(すなわちオブジェクトインスタンスを表す)に対する固定サイズの埋め込みを学習し、入力されたクエリ画像に表示されるオブジェクトとの効果的なマッチングを可能にする。 この戦略は、地図埋め込みにイメージを組み込むことなく、他のクロスモーダル手法よりも大幅に優れている。 画像を利用する場合、SceneGraphLocは、大規模な画像データベースに依存する最先端技術に近いパフォーマンスを達成すると同時に、3つの命令の保存を減らし、命令の処理を高速化する。 コードは公開されます。

We introduce a novel problem, i.e., the localization of an input image within a multi-modal reference map represented by a database of 3D scene graphs. These graphs comprise multiple modalities, including object-level point clouds, images, attributes, and relationships between objects, offering a lightweight and efficient alternative to conventional methods that rely on extensive image databases. Given the available modalities, the proposed method SceneGraphLoc learns a fixed-sized embedding for each node (i.e., representing an object instance) in the scene graph, enabling effective matching with the objects visible in the input query image. This strategy significantly outperforms other cross-modal methods, even without incorporating images into the map embeddings. When images are leveraged, SceneGraphLoc achieves performance close to that of state-of-the-art techniques depending on large image databases, while requiring three orders-of-magnitude less storage and operating orders-of-magnitude faster. The code will be made public.
翻訳日:2024-04-04 03:40:06 公開日:2024-03-30
# 変圧器を用いた畳み込みニューラルネットワークを用いた短区間小児心音の分類

Classification of Short Segment Pediatric Heart Sounds Based on a Transformer-Based Convolutional Neural Network ( http://arxiv.org/abs/2404.00470v1 )

ライセンス: Link先を確認
Md Hassanuzzaman, Nurul Akhtar Hasan, Mohammad Abdullah Al Mamun, Khawza I Ahmed, Ahsan H Khandoker, Raqibul Mostafa, (参考訳) 心臓と大血管の構造に欠陥が生じた結果として生じる先天性異常は先天性心疾患またはCHDとして知られている。 PCGは心臓の機械伝導系について重要な情報を提供し、異なる種類のCHDに関連する特定のパターンを指摘できる。 本研究は,心臓音の自動分類に必要な最小信号長について検討することを目的とする。 また,最適な信号品質評価指標であるRMSSDとZCR値についても検討した。 メル周波数ケプストラー係数(MFCC)に基づく特徴は、トランスフォーマーに基づく残差1次元畳み込みニューラルネットワークを構築する入力として使用され、その後、心臓音の分類に使用される。 この研究では、RMSSDとZCRインジケータに適した信号を得るためには、0.4が理想的なしきい値であることが示されている。 さらに、効果的な心臓音の分類には、5sの最小信号長が必要である。 また、短い信号(3sの心臓音)は、心臓音を正確に分類するのに十分な情報を持っておらず、長い信号(15sの心臓音)はより多くのノイズを含む可能性があることも示している。 最も精度の高い93.69%の5s信号が得られ、心臓の音を識別する。

Congenital anomalies arising as a result of a defect in the structure of the heart and great vessels are known as congenital heart diseases or CHDs. A PCG can provide essential details about the mechanical conduction system of the heart and point out specific patterns linked to different kinds of CHD. This study aims to investigate the minimum signal duration required for the automatic classification of heart sounds. This study also investigated the optimum signal quality assessment indicator (Root Mean Square of Successive Differences) RMSSD and (Zero Crossings Rate) ZCR value. Mel-frequency cepstral coefficients (MFCCs) based feature is used as an input to build a Transformer-Based residual one-dimensional convolutional neural network, which is then used for classifying the heart sound. The study showed that 0.4 is the ideal threshold for getting suitable signals for the RMSSD and ZCR indicators. Moreover, a minimum signal length of 5s is required for effective heart sound classification. It also shows that a shorter signal (3 s heart sound) does not have enough information to categorize heart sounds accurately, and the longer signal (15 s heart sound) may contain more noise. The best accuracy, 93.69%, is obtained for the 5s signal to distinguish the heart sound.
翻訳日:2024-04-04 03:40:06 公開日:2024-03-30
# 光音響トモグラフィ画像再構成のためのスコアベース拡散モデル

Score-Based Diffusion Models for Photoacoustic Tomography Image Reconstruction ( http://arxiv.org/abs/2404.00471v1 )

ライセンス: Link先を確認
Sreemanti Dey, Snigdha Saha, Berthy T. Feng, Manxiu Cui, Laure Delisle, Oscar Leong, Lihong V. Wang, Katherine L. Bouman, (参考訳) 光音響トモグラフィ(英: Photoacoustic tomography, PAT)は、超音波画像深度と光吸収コントラストを組み合わせた、急速に進化する医療画像のモダリティである。 PATの課題の1つは、センサカバレッジの制限やトランスデューサアレイの密度による音響信号の不十分さによる画像再構成である。 このようなケースでは、不利な逆復元問題の解決が求められます。 本研究では,PATの限られた測定値から画像を再構成する逆問題を解決するために,スコアベース拡散モデルを用いる。 提案手法により, トランスデューサの分散条件に頑健でありながら, 模擬容器構造物上での拡散モデルにより学習された表現的事前学習を組み込むことが可能である。

Photoacoustic tomography (PAT) is a rapidly-evolving medical imaging modality that combines optical absorption contrast with ultrasound imaging depth. One challenge in PAT is image reconstruction with inadequate acoustic signals due to limited sensor coverage or due to the density of the transducer array. Such cases call for solving an ill-posed inverse reconstruction problem. In this work, we use score-based diffusion models to solve the inverse problem of reconstructing an image from limited PAT measurements. The proposed approach allows us to incorporate an expressive prior learned by a diffusion model on simulated vessel structures while still being robust to varying transducer sparsity conditions.
翻訳日:2024-04-04 03:30:20 公開日:2024-03-30
# プライバシバックドア - 事前トレーニングされたモデルでデータをステアリングする

Privacy Backdoors: Stealing Data with Corrupted Pretrained Models ( http://arxiv.org/abs/2404.00473v1 )

ライセンス: Link先を確認
Shanglun Feng, Florian Tramèr, (参考訳) 実践者は、オープンリポジトリからトレーニング済みの機械学習モデルをダウンロードして、特定のアプリケーションに適合するように微調整する。 このプラクティスによって、プライバシーバックドアの新たなリスクがもたらされることが示されています。 事前訓練されたモデルの重みを改ざんすることで、攻撃者は微調整データのプライバシーを完全に侵害することができる。 攻撃者が個々の微調整サンプルを再構築できるトランスフォーマーなど、さまざまなモデルのプライバシバックドアを構築する方法を紹介します。 さらに、バックドアモデルにより、差分プライバシ(DP)でトレーニングされたモデルに対して、厳密なプライバシ攻撃が可能であることを示す。 プライバシー保証の緩いDPモデルをトレーニングする一般的な楽観的な慣行は、モデルが信頼されていない場合、安全ではない。 私たちの研究は全体として、機械学習のプライバシに対する重要なサプライチェーンの攻撃を強調しています。

Practitioners commonly download pretrained machine learning models from open repositories and finetune them to fit specific applications. We show that this practice introduces a new risk of privacy backdoors. By tampering with a pretrained model's weights, an attacker can fully compromise the privacy of the finetuning data. We show how to build privacy backdoors for a variety of models, including transformers, which enable an attacker to reconstruct individual finetuning samples, with a guaranteed success! We further show that backdoored models allow for tight privacy attacks on models trained with differential privacy (DP). The common optimistic practice of training DP models with loose privacy guarantees is thus insecure if the model is not trusted. Overall, our work highlights a crucial and overlooked supply chain attack on machine learning privacy.
翻訳日:2024-04-04 03:30:20 公開日:2024-03-30
# 言語モデルの言語校正

Linguistic Calibration of Language Models ( http://arxiv.org/abs/2404.00474v1 )

ライセンス: Link先を確認
Neil Band, Xuechen Li, Tengyu Ma, Tatsunori Hashimoto, (参考訳) 言語モデル(LM)は、ユーザーに自信を持って幻覚を与えるとき、最適な下流決定をさせるかもしれない。 この問題は、LMが主張が正しい確率を口頭で伝えることで緩和できるが、既存のモデルでは、正当性のある文章を生成することはできない。 意思決定のレンズを通して、長文世代に対する言語的キャリブレーションを定式化する: LMは、その世代がユーザがキャリブレーションされた確率予測を行えるようにすれば、言語的にキャリブレーションされる。 この定義により、監督された微調整ステップがLMをブートストラップして「私は30%の確率で...」や「確実に...」といった自信のある文で長文世代を出力する訓練フレームワークが実現され、続いて、ユーザが関連する質問に対してキャリブレーションされた回答を提供できる世代を報奨する強化学習ステップが実現される。 我々はLlama 2 7Bを言語的に校正し,Llama 2 7Bの精度を比較検討した。 これらの知見は,質問応答の分布シフトおよび人物の伝記生成への重要なタスクシフトの下で一般化される。 以上の結果から,下流の意思決定においてユーザが行う予測の空間における目的を構築することにより,長大な世代をエンド・ツー・エンドにキャリブレーションできる可能性が示唆された。

Language models (LMs) may lead their users to make suboptimal downstream decisions when they confidently hallucinate. This issue can be mitigated by having the LM verbally convey the probability that its claims are correct, but existing models cannot produce text with calibrated confidence statements. Through the lens of decision-making, we formalize linguistic calibration for long-form generations: an LM is linguistically calibrated if its generations enable its users to make calibrated probabilistic predictions. This definition enables a training framework where a supervised finetuning step bootstraps an LM to emit long-form generations with confidence statements such as "I estimate a 30% chance of..." or "I am certain that...", followed by a reinforcement learning step which rewards generations that enable a user to provide calibrated answers to related questions. We linguistically calibrate Llama 2 7B and find in automated and human evaluations of long-form generations that it is significantly more calibrated than strong finetuned factuality baselines with comparable accuracy. These findings generalize under distribution shift on question-answering and under a significant task shift to person biography generation. Our results demonstrate that long-form generations may be calibrated end-to-end by constructing an objective in the space of the predictions that users make in downstream decision-making.
翻訳日:2024-04-04 03:30:20 公開日:2024-03-30
# DE-HNN:回路ネットリスト表現のための効果的なニューラルモデル

DE-HNN: An effective neural model for Circuit Netlist representation ( http://arxiv.org/abs/2404.00477v1 )

ライセンス: Link先を確認
Zhishang Luo, Truong Son Hy, Puoya Tabaghi, Donghyeon Koh, Michael Defferrard, Elahe Rezaei, Ryan Carey, Rhett Davis, Rajeev Jain, Yusu Wang, (参考訳) チップ設計で使用される最適化ツールのランタイムは、設計の複雑さによって成長し、ボトルネックとなった1つの設計サイクルを通過するのに数日を要した。 設計者は、設計に対して素早くフィードバックを得られる高速なツールを望んでいる。 過去のデザインからのツールの入力と出力データを使用することで、ツールの実行よりもはるかに短い時間で設計結果を予測する機械学習モデルを構築することができる。 このようなモデルの精度は、通常、デジタル回路の要素とそれらがどのように接続されているかを記述したネットリストである設計データの表現に影響される。 グラフニューラルネットワークとともにネットリストのグラフ表現について,そのようなモデルについて検討した。 しかしながら、ネットリストの特徴は、多数のノードとノード間の長距離相互作用の重要性から、既存のグラフ学習フレームワークにいくつかの課題をもたらす。 これらの課題に対処するために、ネットリストを有向ハイパーグラフとして表現し、(直接)ハイパーグラフを効果的に学習するための指向同変ハイパーグラフニューラルネットワーク(DE-HNN)を提案する。 理論的には、我々のDE-HNNは、ある置換同変および有向超グラフに対して自然な不変性を満たす任意のノードまたはハイパーエッジ基底関数を普遍的に近似できることを示す。 提案したDEC-HNNと、(ハイパー)グラフとネットリストのための複数のSOTA(State-of-the-art)機械学習モデルを比較し、DEC-HNNが入力されたネットリストから直接、最適化された場所と経路のツールの結果を予測する上で、それらを著しく上回っていることを示す。 私たちのソースコードと使用するネットリストデータはhttps://github.com/YusuLab/chips.gitで公開されています。

The run-time for optimization tools used in chip design has grown with the complexity of designs to the point where it can take several days to go through one design cycle which has become a bottleneck. Designers want fast tools that can quickly give feedback on a design. Using the input and output data of the tools from past designs, one can attempt to build a machine learning model that predicts the outcome of a design in significantly shorter time than running the tool. The accuracy of such models is affected by the representation of the design data, which is usually a netlist that describes the elements of the digital circuit and how they are connected. Graph representations for the netlist together with graph neural networks have been investigated for such models. However, the characteristics of netlists pose several challenges for existing graph learning frameworks, due to the large number of nodes and the importance of long-range interactions between nodes. To address these challenges, we represent the netlist as a directed hypergraph and propose a Directional Equivariant Hypergraph Neural Network (DE-HNN) for the effective learning of (directed) hypergraphs. Theoretically, we show that our DE-HNN can universally approximate any node or hyperedge based function that satisfies certain permutation equivariant and invariant properties natural for directed hypergraphs. We compare the proposed DE-HNN with several State-of-the-art (SOTA) machine learning models for (hyper)graphs and netlists, and show that the DE-HNN significantly outperforms them in predicting the outcome of optimized place-and-route tools directly from the input netlists. Our source code and the netlists data used are publicly available at https://github.com/YusuLab/chips.git
翻訳日:2024-04-04 03:30:20 公開日:2024-03-30
# 畳み込みベイズフィルタ

Convolutional Bayesian Filtering ( http://arxiv.org/abs/2404.00481v1 )

ライセンス: Link先を確認
Wenhan Cao, Shiqi Liu, Chang Liu, Zeyu He, Stephen S. -T. Yau, Shengbo Eben Li, (参考訳) ベイズフィルタリングは動的システムにおける状態推定の主流のフレームワークとして機能する。 その標準的なバージョンは全確率規則とベイズの法則を利用しており、状態分布の推測に対して条件付き確率を定義する方法と計算方法が重要である。 従来、条件付き確率は正確に知られており、これは第2の事象が与えられたときの1つの事象の発生確率の尺度である。 本稿では,不等式を規定する追加イベントを追加することで,条件付き確率を畳み込みに類似した特別な積分に変換することができることを示す。 この変換に基づいて、遷移確率と出力確率の両方を畳み込み形式に一般化できることを示す。 この新たな枠組みは、不等式の距離メートル法がディラックデルタ関数として選択される特別な場合として標準ベイズフィルタを含む。 また、異なるタイプの不等式条件を選択することで、モデルミスマッチをより微妙に考慮することができる。 例えば、距離計量が分布的な意味で定義されるとき、遷移確率と出力確率は、単純にそれを分数次に再スケーリングすることで近似することができる。 この枠組みの下では、カルマンフィルタの頑健なバージョンは、ガウス分布の共役性を維持しながらノイズ共分散行列を変更するだけで構成できる。 最後に,従来のフィルタアルゴリズムを,カルマンフィルタ,拡張カルマンフィルタ,無人カルマンフィルタ,粒子フィルタなどの畳み込み型に変換することで,提案手法の有効性を実証する。

Bayesian filtering serves as the mainstream framework of state estimation in dynamic systems. Its standard version utilizes total probability rule and Bayes' law alternatively, where how to define and compute conditional probability is critical to state distribution inference. Previously, the conditional probability is assumed to be exactly known, which represents a measure of the occurrence probability of one event, given the second event. In this paper, we find that by adding an additional event that stipulates an inequality condition, we can transform the conditional probability into a special integration that is analogous to convolution. Based on this transformation, we show that both transition probability and output probability can be generalized to convolutional forms, resulting in a more general filtering framework that we call convolutional Bayesian filtering. This new framework encompasses standard Bayesian filtering as a special case when the distance metric of the inequality condition is selected as Dirac delta function. It also allows for a more nuanced consideration of model mismatch by choosing different types of inequality conditions. For instance, when the distance metric is defined in a distributional sense, the transition probability and output probability can be approximated by simply rescaling them into fractional powers. Under this framework, a robust version of Kalman filter can be constructed by only altering the noise covariance matrix, while maintaining the conjugate nature of Gaussian distributions. Finally, we exemplify the effectiveness of our approach by reshaping classic filtering algorithms into convolutional versions, including Kalman filter, extended Kalman filter, unscented Kalman filter and particle filter.
翻訳日:2024-04-04 03:30:20 公開日:2024-03-30
# スラヴ語のための言語間共用エンティティコーパス

Cross-lingual Named Entity Corpus for Slavic Languages ( http://arxiv.org/abs/2404.00482v1 )

ライセンス: Link先を確認
Jakub Piskorski, Michał Marcińczuk, Roman Yangarber, (参考訳) 本稿では,ブルガリア語,チェコ語,ポーランド語,スロベニア語,ロシア語,ウクライナ語という,スラヴ語6言語の名前付きコーパスを手作業で提示する。 この作業は、スラヴ自然言語処理ワークショップの一部として2017-2023年に行われた一連の共有タスクの結果である。 コーパスは7つのトピックに関する5つの017文書で構成されている。 文書には5つの名前付きエンティティのクラスがアノテートされている。 各エンティティは、カテゴリ、補題、ユニークな言語間識別子によって記述される。 シングルトピックアウトとクロストピックという、2つのトレインツーーンデータセットの分割を提供します。 各分割に対して、トレーニング済みのマルチ言語モデルであるXLM-RoBERTa-largeを名前付きエンティティ参照認識と分類用、mT5-largeを名前付きエンティティの補間とリンク用、トランスフォーマーベースのニューラルネットワークアーキテクチャを用いてベンチマークを設定した。

This paper presents a corpus manually annotated with named entities for six Slavic languages - Bulgarian, Czech, Polish, Slovenian, Russian, and Ukrainian. This work is the result of a series of shared tasks, conducted in 2017-2023 as a part of the Workshops on Slavic Natural Language Processing. The corpus consists of 5 017 documents on seven topics. The documents are annotated with five classes of named entities. Each entity is described by a category, a lemma, and a unique cross-lingual identifier. We provide two train-tune dataset splits - single topic out and cross topics. For each split, we set benchmarks using a transformer-based neural network architecture with the pre-trained multilingual models - XLM-RoBERTa-large for named entity mention recognition and categorization, and mT5-large for named entity lemmatization and linking.
翻訳日:2024-04-04 03:30:20 公開日:2024-03-30
# Edinburgh Clinical NLP at SemEval-2024 Task 2: Fine-Tune your model without you have access to GPT-4

Edinburgh Clinical NLP at SemEval-2024 Task 2: Fine-tune your model unless you have access to GPT-4 ( http://arxiv.org/abs/2404.00484v1 )

ライセンス: Link先を確認
Aryo Pradipta Gema, Giwon Hong, Pasquale Minervini, Luke Daines, Beatrice Alex, (参考訳) NLI4CTタスクは、仮説が臨床試験報告の証拠に関係しているか矛盾するかを予測するために、自然言語推論システムを評価する。 本研究では,チェイン・オブ・ソート,イン・コンテクスト・ラーニング,パラメータ・エフェクト・ファイン・チューニング (PEFT) など,様々な戦略を用いた大規模言語モデル (LLM) の評価を行った。 本稿では,三重項と言語モデリングの目的を別々に調整したアダプタをマージすることで,LLMの整合性を改善するPEFT法を提案する。 2つのPEFTアダプタをマージすることで、LLMのF1スコア(+0.0346)と一貫性(+0.152)が向上することがわかった。 しかし,本手法では,信頼度と一貫性の点で,GPT-4よりも正確な結果が得られなかった。 3つの指標を平均して、GPT-4は0.8328との競争で1位となった。 最後に, GPT-4による汚染分析の結果, 試験データ漏洩は認められなかった。

The NLI4CT task assesses Natural Language Inference systems in predicting whether hypotheses entail or contradict evidence from Clinical Trial Reports. In this study, we evaluate various Large Language Models (LLMs) with multiple strategies, including Chain-of-Thought, In-Context Learning, and Parameter-Efficient Fine-Tuning (PEFT). We propose a PEFT method to improve the consistency of LLMs by merging adapters that were fine-tuned separately using triplet and language modelling objectives. We found that merging the two PEFT adapters improves the F1 score (+0.0346) and consistency (+0.152) of the LLMs. However, our novel methods did not produce more accurate results than GPT-4 in terms of faithfulness and consistency. Averaging the three metrics, GPT-4 ranks joint-first in the competition with 0.8328. Finally, our contamination analysis with GPT-4 indicates that there was no test data leakage.
翻訳日:2024-04-04 03:30:20 公開日:2024-03-30
# DiffHuman: 確率的フォトリアリスティックな人間の3D再構成

DiffHuman: Probabilistic Photorealistic 3D Reconstruction of Humans ( http://arxiv.org/abs/2404.00485v1 )

ライセンス: Link先を確認
Akash Sengupta, Thiemo Alldieck, Nikos Kolotouros, Enric Corona, Andrei Zanfir, Cristian Sminchisescu, (参考訳) DiffHumanは1枚のRGB画像から3次元人物を再現する確率論的手法である。 この問題の誤った性質にもかかわらず、ほとんどの手法は決定論的であり、単一の解を出力する。 対照的に、DiffHumanは入力された2D画像に条件付けられた3D再構成の確率分布を予測し、画像と整合した複数の詳細な3Dアバターをサンプリングすることができる。 DiffHumanは条件拡散モデルとして実装され、基礎となる3次元形状表現の画素配向2次元観察を識別する。 推測中、予測された3D表現の2Dレンダリングを反復的に復調することで、3Dアバターをサンプリングすることができる。 さらに,実行時間を大幅に短縮(55倍高速化)してレンダリングを近似するジェネレータニューラルネットワークを導入し,新たなデュアルブランチ拡散フレームワークを提案する。 我々の実験は、DiffHumanが入力画像に見えない、あるいは不確実な部分の多様かつ詳細な再構成を生成できることを示した。

We present DiffHuman, a probabilistic method for photorealistic 3D human reconstruction from a single RGB image. Despite the ill-posed nature of this problem, most methods are deterministic and output a single solution, often resulting in a lack of geometric detail and blurriness in unseen or uncertain regions. In contrast, DiffHuman predicts a probability distribution over 3D reconstructions conditioned on an input 2D image, which allows us to sample multiple detailed 3D avatars that are consistent with the image. DiffHuman is implemented as a conditional diffusion model that denoises pixel-aligned 2D observations of an underlying 3D shape representation. During inference, we may sample 3D avatars by iteratively denoising 2D renders of the predicted 3D representation. Furthermore, we introduce a generator neural network that approximates rendering with considerably reduced runtime (55x speed up), resulting in a novel dual-branch diffusion framework. Our experiments show that DiffHuman can produce diverse and detailed reconstructions for the parts of the person that are unseen or uncertain in the input image, while remaining competitive with the state-of-the-art when reconstructing visible surfaces.
翻訳日:2024-04-04 03:30:20 公開日:2024-03-30
# 図形アライメント:3Hの張力とLLMのセキュリティ脅威を解消する

Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs ( http://arxiv.org/abs/2404.00486v1 )

ライセンス: Link先を確認
Shu Yang, Jiayuan Su, Han Jiang, Mengdi Li, Keyuan Cheng, Muhammad Asif Ali, Lijie Hu, Di Wang, (参考訳) 大型言語モデル(LLMs)の台頭により、人間アライメント(Human Alignment)として知られる、役に立つこと、正直であること、無害であること(3H)の原則が具現化されていく。 RLHFやDPOなどの既存のアライメント手法は、選好データセットの好みに合うように、効果的に微調整のLSMを配置するが、この情報に毒が注がれたとしても、LLMを高い受容力を持つ人間の入力と外部の証拠に導くことがしばしばある。 これにより、LCMがアダプティブ・シャメレオンとなる傾向は、外部の証拠がパラメトリックメモリと矛盾する場合に生じる。 これにより、LLMが外部の有毒データによって攻撃されるリスクが悪化し、Retrieval-augmented Generation (RAG)のようなLLMシステムアプリケーションに重大なセキュリティリスクが生じる。 この課題に対処するために,1つの新しい枠組みを提案する: 対話的アライメント (DA) は,(1) LLMの最適戦略を識別するためにAIのフィードバックを利用して, コンテキストウィンドウ内の異なる外部証拠(例えば, 有毒な事実的文脈の比率)と, 異なる外部証拠をナビゲートする。(2) SFTデータセットと, 上記のAIのフィードバックと戦略に基づく嗜好データセットを構築する。 実験の結果, 弁証的アライメントモデルでは有毒なデータ攻撃防御を20倍に改善し, 追加のプロンプトエンジニアリングや<you may be attack` の事前宣言を LLM のコンテキストウィンドウに必要としないことがわかった。

With the rise of large language models (LLMs), ensuring they embody the principles of being helpful, honest, and harmless (3H), known as Human Alignment, becomes crucial. While existing alignment methods like RLHF, DPO, etc., effectively fine-tune LLMs to match preferences in the preference dataset, they often lead LLMs to highly receptive human input and external evidence, even when this information is poisoned. This leads to a tendency for LLMs to be Adaptive Chameleons when external evidence conflicts with their parametric memory. This exacerbates the risk of LLM being attacked by external poisoned data, which poses a significant security risk to LLM system applications such as Retrieval-augmented generation (RAG). To address the challenge, we propose a novel framework: Dialectical Alignment (DA), which (1) utilizes AI feedback to identify optimal strategies for LLMs to navigate inter-context conflicts and context-memory conflicts with different external evidence in context window (i.e., different ratios of poisoned factual contexts); (2) constructs the SFT dataset as well as the preference dataset based on the AI feedback and strategies above; (3) uses the above datasets for LLM alignment to defense poisoned context attack while preserving the effectiveness of in-context knowledge editing. Our experiments show that the dialectical alignment model improves poisoned data attack defense by 20 and does not require any additional prompt engineering or prior declaration of ``you may be attacked`` to the LLMs' context window.
翻訳日:2024-04-04 03:30:20 公開日:2024-03-30
# コンテキストAIジャーナリング:MindScapeアプリによる自己回帰と幸福を促進するLLMと時系列行動センシング技術の統合

Contextual AI Journaling: Integrating LLM and Time Series Behavioral Sensing Technology to Promote Self-Reflection and Well-being using the MindScape App ( http://arxiv.org/abs/2404.00487v1 )

ライセンス: Link先を確認
Subigya Nepal, Arvind Pillai, William Campbell, Talie Massachi, Eunsol Soul Choi, Orson Xu, Joanna Kuc, Jeremy Huckins, Jason Holden, Colin Depp, Nicholas Jacobson, Mary Czerwinski, Eric Granholm, Andrew T. Campbell, (参考訳) MindScapeは、時系列の行動パターン(会話のエンゲージメント、睡眠、場所など)をLarge Language Models(LLM)と統合して、コンテキストAIジャーナリングの新しい形式を作成し、自己反映と幸福を促進するというメリットを研究することを目的としている。 LLMに行動センシングを統合することは、AIの新たなフロンティアにつながる可能性が高い、と私たちは主張する。 本稿では,LLMと行動センシングを併用したMindScapeコンテキストジャーナル『App Design』について論じ,自己反省的・感情的な発達を促すために考案された,コンテキスト的・パーソナライズされたジャーナリングプロンプトを生成する。 また,大学生を対象としたMindScape研究について,予備的ユーザスタディと今後の研究に基づいて,大学構内における健康向上に資する文脈型AIジャーナリングの有効性を評価する。 MindScapeは、AIに振る舞いインテリジェンスを組み込む新しいアプリケーションクラスである。

MindScape aims to study the benefits of integrating time series behavioral patterns (e.g., conversational engagement, sleep, location) with Large Language Models (LLMs) to create a new form of contextual AI journaling, promoting self-reflection and well-being. We argue that integrating behavioral sensing in LLMs will likely lead to a new frontier in AI. In this Late-Breaking Work paper, we discuss the MindScape contextual journal App design that uses LLMs and behavioral sensing to generate contextual and personalized journaling prompts crafted to encourage self-reflection and emotional development. We also discuss the MindScape study of college students based on a preliminary user study and our upcoming study to assess the effectiveness of contextual AI journaling in promoting better well-being on college campuses. MindScape represents a new application class that embeds behavioral intelligence in AI.
翻訳日:2024-04-04 03:30:20 公開日:2024-03-30
# レイアウトアウェア言語モデルのノイズアウェアトレーニング

Noise-Aware Training of Layout-Aware Language Models ( http://arxiv.org/abs/2404.00488v1 )

ライセンス: Link先を確認
Ritesh Sarkhel, Xiaoqi Ren, Lauro Beltrao Costa, Guolong Su, Vincent Perot, Yanan Xie, Emmanouil Koukoumidis, Arnab Nandi, (参考訳) 視覚的にリッチなドキュメント(VRD)は、視覚的特徴と言語的手がかりを利用して情報を広める。 ドキュメントから名前付きエンティティを識別するカスタム抽出器をトレーニングするには、テキストとビジュアルのモダリティで注釈付けされたターゲットドキュメントタイプの多数のインスタンスが必要である。 これはエンタープライズシナリオにおいて高価なボトルネックであり、スケーラブルな方法で数千の異なるドキュメントタイプのカスタムエクストラクタをトレーニングしたいと考えています。 対象文書型のラベル付けされていないインスタンスに対して抽出器モデルを事前トレーニングし、続いて人ラベル付きインスタンスを微調整するステップは、抽出器に割り当てられた最大トレーニング時間を超えるため、これらのシナリオでは機能しない。 本論文では,騒音認識訓練法やNATを提案することで,このシナリオに対処する。 高価な人ラベルの文書を取得する代わりに、NATは弱いラベルのついた文書を使って抽出器をスケーラブルに訓練する。 ノイズや弱いラベル付きサンプルによるモデル品質の劣化を避けるため、NATは各トレーニングサンプルの信頼性を推定し、トレーニング中に不確実性尺度として組み込む。 我々はNATを用いて複数の最先端抽出モデルを訓練する。 多くの公開データセットと社内データセットの実験では、NATトレーニングされたモデルはパフォーマンスにおいて堅牢であるだけでなく、マクロF1スコアの点で、移行学習ベースラインを最大6%上回り、ラベル効率も向上している。

A visually rich document (VRD) utilizes visual features along with linguistic cues to disseminate information. Training a custom extractor that identifies named entities from a document requires a large number of instances of the target document type annotated at textual and visual modalities. This is an expensive bottleneck in enterprise scenarios, where we want to train custom extractors for thousands of different document types in a scalable way. Pre-training an extractor model on unlabeled instances of the target document type, followed by a fine-tuning step on human-labeled instances does not work in these scenarios, as it surpasses the maximum allowable training time allocated for the extractor. We address this scenario by proposing a Noise-Aware Training method or NAT in this paper. Instead of acquiring expensive human-labeled documents, NAT utilizes weakly labeled documents to train an extractor in a scalable way. To avoid degradation in the model's quality due to noisy, weakly labeled samples, NAT estimates the confidence of each training sample and incorporates it as uncertainty measure during training. We train multiple state-of-the-art extractor models using NAT. Experiments on a number of publicly available and in-house datasets show that NAT-trained models are not only robust in performance -- it outperforms a transfer-learning baseline by up to 6% in terms of macro-F1 score, but it is also more label-efficient -- it reduces the amount of human-effort required to obtain comparable performance by up to 73%.
翻訳日:2024-04-04 03:30:20 公開日:2024-03-30
# PROMPT-SAW:テキストプロンプト圧縮のための関係認識グラフの活用

PROMPT-SAW: Leveraging Relation-Aware Graphs for Textual Prompt Compression ( http://arxiv.org/abs/2404.00489v1 )

ライセンス: Link先を確認
Muhammad Asif Ali, Zhengping Li, Shu Yang, Keyuan Cheng, Yang Cao, Tianhao Huang, Lijie Hu, Lu Yu, Di Wang, (参考訳) 大規模言語モデル(LLM)は、複数の異なる自然言語処理タスクに対して例外的な能力を示す。 プロンプトはLLM推論において重要なツールであるが, 非常に長いプロンプトが伴う大きなコストが存在することが観察された。 既存の圧縮プロンプトの圧縮の試みは、圧縮されたプロンプトの可読性と解釈可能性の観点から、サブスタンダードな結果をもたらす。 そこで,本稿では,PROMPT-SAWを提案する。 Prompt compresSion via Relation AWare graphs, is effective strategy for prompt compression over task-agnostic and task-aware prompts。 PROMPT-SAWはプロンプトのテキスト情報を使ってグラフを構築する。 GSM8K-AUG(GSM8K-AUG)も提案する。 ProMPT-SAWによって圧縮されたプロンプトは可読性において優れているだけでなく、タスク認識とタスク認識の設定においてそれぞれ14.3と13.7で最高のパフォーマンスのベースラインモデルより優れており、元のプロンプトテキストは33.0と56.7で圧縮されている。

Large language models (LLMs) have shown exceptional abilities for multiple different natural language processing tasks. While prompting is a crucial tool for LLM inference, we observe that there is a significant cost associated with exceedingly lengthy prompts. Existing attempts to compress lengthy prompts lead to sub-standard results in terms of readability and interpretability of the compressed prompt, with a detrimental impact on prompt utility. To address this, we propose PROMPT-SAW: Prompt compresSion via Relation AWare graphs, an effective strategy for prompt compression over task-agnostic and task-aware prompts. PROMPT-SAW uses the prompt's textual information to build a graph, later extracts key information elements in the graph to come up with the compressed prompt. We also propose GSM8K-AUG, i.e., an extended version of the existing GSM8k benchmark for task-agnostic prompts in order to provide a comprehensive evaluation platform. Experimental evaluation using benchmark datasets shows that prompts compressed by PROMPT-SAW are not only better in terms of readability, but they also outperform the best-performing baseline models by up to 14.3 and 13.7 respectively for task-aware and task-agnostic settings while compressing the original prompt text by 33.0 and 56.7.
翻訳日:2024-04-04 03:30:20 公開日:2024-03-30
# 拡散モデルによるモンテカルロレンダのノイズ化

Denoising Monte Carlo Renders With Diffusion Models ( http://arxiv.org/abs/2404.00491v1 )

ライセンス: Link先を確認
Vaibhav Vavilala, Rahul Vasanth, David Forsyth, (参考訳) 物理的にベースとしたレンダリングはモンテカルロノイズを含み、ピクセル当たりの光の数が減少するにつれてばらつきが増す。 このノイズは、良いモダンなレンダラーにはゼロ平均でありながら、重い尾(特にスペックや屈折性のある物体を含むシーン)を持つことができる。 低忠実度レンダリングを復元するための学習手法は、レンダリングノイズを抑えることは、計算を節約し、1ピクセルあたりの光量が少ない高速レンダリングを使用することを意味するため、高度に開発されている。 拡散モデルが低忠実度レンダリングをうまく認知できることを実証する。 さらに,本手法は様々な自然なレンダリング情報に対して条件付けが可能であり,この条件付けにより性能が向上する。 定量的実験により,本手法はサンプリングレートの幅でSOTAと競合することが示されたが,現在の測定値は競合する手法をわずかに好んでいる。 復元の質的な検証は、メトリクス自体が信頼できないかもしれないことを示唆している。 拡散法で事前に適用された画像は、実際のイメージの「様」な再構成を強く好んでいる。 現状の指標で好まれる手法が、我々の方法よりも定性的に弱い再構成を生み出す例を多数紹介する。

Physically-based renderings contain Monte-Carlo noise, with variance that increases as the number of rays per pixel decreases. This noise, while zero-mean for good modern renderers, can have heavy tails (most notably, for scenes containing specular or refractive objects). Learned methods for restoring low fidelity renders are highly developed, because suppressing render noise means one can save compute and use fast renders with few rays per pixel. We demonstrate that a diffusion model can denoise low fidelity renders successfully. Furthermore, our method can be conditioned on a variety of natural render information, and this conditioning helps performance. Quantitative experiments show that our method is competitive with SOTA across a range of sampling rates, but current metrics slightly favor competitor methods. Qualitative examination of the reconstructions suggests that the metrics themselves may not be reliable. The image prior applied by a diffusion method strongly favors reconstructions that are "like" real images -- so have straight shadow boundaries, curved specularities, no "fireflies" and the like -- and metrics do not account for this. We show numerous examples where methods preferred by current metrics produce qualitatively weaker reconstructions than ours.
翻訳日:2024-04-04 03:30:20 公開日:2024-03-30
# 時間的知識編集によるマルチホップ質問応答

Multi-hop Question Answering under Temporal Knowledge Editing ( http://arxiv.org/abs/2404.00492v1 )

ライセンス: Link先を確認
Keyuan Cheng, Gang Lin, Haoyang Fei, Yuxuan zhai, Lu Yu, Muhammad Asif Ali, Lijie Hu, Di Wang, (参考訳) 知識編集(KE)におけるマルチホップ質問応答(MQA)は,大規模言語モデルの時代において大きな注目を集めている。 しかしながら、KEの下でのMQAの既存のモデルは、明示的な時間的文脈を含む質問を扱う場合、性能が劣っている。 この制限に対処するため、TEMPoral knowLEdge augmented Multi-hop Question Answering (TEMPLE-MQA) という新しいフレームワークを提案する。 従来の方法とは異なり、TEMPLE-MQAはまずタイムアウェアグラフ(TAG)を構築し、編集知識を構造化された方法で保存する。 そして、提案した推論経路、構造検索、共同推論段階を通じて、TEMPLE-MQAは質問クエリ内の時間的コンテキストを効果的に識別する。 ベンチマークデータセットの実験では、TEMPLE-MQAがベースラインモデルを大幅に上回っていることが示されている。 さらに、時間的スコープを持つMQAに特化した最初のベンチマークとして機能する新しいデータセット、すなわちTKEMQAをコントリビュートする。

Multi-hop question answering (MQA) under knowledge editing (KE) has garnered significant attention in the era of large language models. However, existing models for MQA under KE exhibit poor performance when dealing with questions containing explicit temporal contexts. To address this limitation, we propose a novel framework, namely TEMPoral knowLEdge augmented Multi-hop Question Answering (TEMPLE-MQA). Unlike previous methods, TEMPLE-MQA first constructs a time-aware graph (TAG) to store edit knowledge in a structured manner. Then, through our proposed inference path, structural retrieval, and joint reasoning stages, TEMPLE-MQA effectively discerns temporal contexts within the question query. Experiments on benchmark datasets demonstrate that TEMPLE-MQA significantly outperforms baseline models. Additionally, we contribute a new dataset, namely TKEMQA, which serves as the inaugural benchmark tailored specifically for MQA with temporal scopes.
翻訳日:2024-04-04 03:30:20 公開日:2024-03-30
# 合成選好データを用いた言語モデルの構成可能な安全チューニング

Configurable Safety Tuning of Language Models with Synthetic Preference Data ( http://arxiv.org/abs/2404.00495v1 )

ライセンス: Link先を確認
Victor Gallego, (参考訳) DPO(Direct Preference Optimization)のような最先端の言語モデル微調整技術は、事前に定義された振る舞いをモデルにハードコーディングすることでユーザ制御を制限する。 そこで本研究では,LLMのフレキシブルな安全性設定を容易にするために,合成選好データを用いてDPOを増強する新しい手法であるConfigurable Safety Tuning (CST)を提案する。 CSTは、バニラDPOの制約を克服するため、システムプロンプトに安全設定を指定することで、システムプロンプトを変更するだけで、LLMデプロイが必要に応じて安全設定を無効/可能にすることができる。 実験により、CSTは異なる安全設定をうまく管理し、LLMの本来の機能を維持できることが示され、構成可能な配置のための堅牢な方法であることが示された。 https://github.com/vicgalle/configurable-safety-tuningで利用可能なデータとモデル

State-of-the-art language model fine-tuning techniques, such as Direct Preference Optimization (DPO), restrict user control by hard-coding predefined behaviors into the model. To address this, we propose a novel method, Configurable Safety Tuning (CST), that augments DPO using synthetic preference data to facilitate flexible safety configuration of LLMs at inference time. CST overcomes the constraints of vanilla DPO by introducing a system prompt specifying safety configurations, enabling LLM deployers to disable/enable safety preferences based on their need, just changing the system prompt. Our experimental evaluations indicate that CST successfully manages different safety configurations and retains the original functionality of LLMs, showing it is a robust method for configurable deployment. Data and models available at https://github.com/vicgalle/configurable-safety-tuning
翻訳日:2024-04-04 03:30:20 公開日:2024-03-30
# 多光子干渉によるコヒーレント光の不確かさの低減

Reducing of the Uncertainty Product of Coherent Light through Multi-Photon Interference ( http://arxiv.org/abs/2404.00496v1 )

ライセンス: Link先を確認
Sangbae Kim, Joachim Stohr, Fabian Rotermund, Byoung S. Ham, (参考訳) 多光子干渉による単一モードコヒーレントcwレーザー光の回折および干渉分解能限界の克服を理論的および実験的に実証する。 単一入力型および単一出力型または二重出力型ポートジオメトリで動作するマッハ・ツェンダー干渉計を用いて、波動または単一光子量子論によって予測される従来の干渉パターンの幅幅を、N=2,3,4$光子の同時検出により最大1/\sqrt{2N}$の係数で観測する。 我々のスキームは、標準量子限界を克服するために、圧縮光や絡み合った光を必要とせず、高精度干渉測定実験を大いに促進する。

We demonstrate theoretically and experimentally how the diffraction and interferometric resolution limit for single-mode coherent cw laser light can be overcome by multi-photon interference. By use of a Mach-Zehnder interferometer, operated in the single input and single or double output port geometries, we observe a fringe width reduction of the conventional interference pattern, predicted by the wave or single photon quantum theory, by a factor of up to $1/\sqrt{2N}$ through coincident detection of $N=2,3,4$ photons. Our scheme does not require squeezed or entangled light to overcome the standard quantum limit and greatly facilitates precision interferometry experiments.
翻訳日:2024-04-04 03:20:34 公開日:2024-03-30
# 94%がCIFAR-10で3.29秒間、シングルGPUで

94% on CIFAR-10 in 3.29 Seconds on a Single GPU ( http://arxiv.org/abs/2404.00498v1 )

ライセンス: Link先を確認
Keller Jordan, (参考訳) CIFAR-10は機械学習で最も広く使われているデータセットの1つであり、年間数千の研究プロジェクトを促進している。 CIFAR-10は3.29秒で94%,10.4秒で95%,46.3秒で96%に達する。 これらのトレーニング速度に寄与する要因の1つとして,水平転動増強のデランドマイズ版を提案する。 私たちのコードはhttps://github.com/KellerJordan/cifar10-airbench.comで公開されています。

CIFAR-10 is among the most widely used datasets in machine learning, facilitating thousands of research projects per year. To accelerate research and reduce the cost of experiments, we introduce training methods for CIFAR-10 which reach 94% accuracy in 3.29 seconds, 95% in 10.4 seconds, and 96% in 46.3 seconds, when run on a single NVIDIA A100 GPU. As one factor contributing to these training speeds, we propose a derandomized variant of horizontal flipping augmentation, which we show improves over the standard method in every case where flipping is beneficial over no flipping at all. Our code is released at https://github.com/KellerJordan/cifar10-airbench.
翻訳日:2024-04-04 03:20:34 公開日:2024-03-30
# 単語埋め込みの形状:トポロジカルデータ解析による言語系統認識

The Shape of Word Embeddings: Recognizing Language Phylogenies through Topological Data Analysis ( http://arxiv.org/abs/2404.00500v1 )

ライセンス: Link先を確認
Ondřej Draganov, Steven Skiena, (参考訳) 単語埋め込みは、言語語彙を$d$次元の点の雲として表す。 本研究では,各トークンの意味的意味を表わす以外に,これらの雲の一般的な形状によって情報がどのように伝達されるかを検討する。 具体的には、トポロジカルデータ解析(TDA)からの永続的ホモロジーの概念を用いて、ラベルなし埋め込みの形状から言語ペア間の距離を測定する。 これらの距離行列を用いて、81のインド・ヨーロッパ語にまたがる言語系統木を構築する。 注意深い評価の結果,再建された木は基準木と強い類似性を示した。

Word embeddings represent language vocabularies as clouds of $d$-dimensional points. We investigate how information is conveyed by the general shape of these clouds, outside of representing the semantic meaning of each token. Specifically, we use the notion of persistent homology from topological data analysis (TDA) to measure the distances between language pairs from the shape of their unlabeled embeddings. We use these distance matrices to construct language phylogenetic trees over 81 Indo-European languages. Careful evaluation shows that our reconstructed trees exhibit strong similarities to the reference tree.
翻訳日:2024-04-04 03:20:34 公開日:2024-03-30
# LLMによるNERデータセットの強化:自動および精製アノテーションを目指して

Augmenting NER Datasets with LLMs: Towards Automated and Refined Annotation ( http://arxiv.org/abs/2404.01334v1 )

ライセンス: Link先を確認
Yuji Naraki, Ryosuke Yamaki, Yoshikazu Ikeda, Takafumi Horie, Hiroki Naganuma, (参考訳) 自然言語処理(NLP)の分野では、名前付きエンティティ認識(NER)は、幅広いアプリケーションにまたがる重要な技術として認識されている。 NERモデルのデータセットにアノテートする従来の手法は、データセットの品質の高コストとばらつきによって挑戦されている。 本研究では,Large Language Models (LLMs) の能力と人間の努力を相乗化するための,新しいハイブリッドアノテーション手法を提案する。 このアプローチは、省略などの手動アノテーション固有のノイズを改善することを目的としているだけでなく、NERモデルの性能を向上させるだけでなく、コスト効率のよい方法でも実現している。 さらに、ラベルミキシング戦略を用いることで、LLMベースのアノテーションで遭遇するクラス不均衡の問題に対処する。 複数のデータセットをまたいだ分析により、制約のある予算条件下であっても、従来のアノテーション手法よりも優れた性能が得られることが一貫して示されている。 本研究は,LLMを活用してデータセットの品質を向上する可能性を照らし,クラス不均衡を緩和する新しい手法を導入し,高性能NERを低コストで実現可能であることを示す。

In the field of Natural Language Processing (NLP), Named Entity Recognition (NER) is recognized as a critical technology, employed across a wide array of applications. Traditional methodologies for annotating datasets for NER models are challenged by high costs and variations in dataset quality. This research introduces a novel hybrid annotation approach that synergizes human effort with the capabilities of Large Language Models (LLMs). This approach not only aims to ameliorate the noise inherent in manual annotations, such as omissions, thereby enhancing the performance of NER models, but also achieves this in a cost-effective manner. Additionally, by employing a label mixing strategy, it addresses the issue of class imbalance encountered in LLM-based annotations. Through an analysis across multiple datasets, this method has been consistently shown to provide superior performance compared to traditional annotation methods, even under constrained budget conditions. This study illuminates the potential of leveraging LLMs to improve dataset quality, introduces a novel technique to mitigate class imbalances, and demonstrates the feasibility of achieving high-performance NER in a cost-effective way.
翻訳日:2024-04-03 21:06:49 公開日:2024-03-30
# アーキテクチャ設計のためのジェネレーティブAI:文献レビュー

Generative AI for Architectural Design: A Literature Review ( http://arxiv.org/abs/2404.01335v1 )

ライセンス: Link先を確認
Chengyuan Li, Tianyu Zhang, Xusheng Du, Ye Zhang, Haoran Xie, (参考訳) 生成人工知能(AI)はアーキテクチャ設計における新しい方法論パラダイムを開拓し、設計プロセスの革新的な可能性と効率を大幅に拡大した。 本稿では,生産型AI技術のアーキテクチャ設計における広範な応用について考察する。 この記事では、生成AIと大規模モデルの基本原則に関する包括的なレビューを行い、2D画像、ビデオ、および3Dモデルの生成における応用について強調する。 さらに,2020年からの最新の文献をレビューすることにより,建築設計のさまざまな段階における生成AI技術の影響を,初期の3D形式の生成から最終的な建築画像の生成まで,精査する。 研究成長の顕著な傾向は、生成的AIを受け入れることへのアーキテクチャデザインコミュニティ内の傾きが増し、研究のための共通の熱意を触媒することを示している。 これらの研究ケースと方法論は、効率とイノベーションを著しく向上させるだけでなく、従来のアーキテクチャの創造性の境界にも課題を提起している。 最後に、設計革新のための新しい方向性を指摘し、アーキテクチャ領域に生成AIを適用するための新鮮な軌道を明示する。 この記事では、アーキテクチャ設計のための生成AIに関する、初めての包括的な文献レビューを提供する。

Generative Artificial Intelligence (AI) has pioneered new methodological paradigms in architectural design, significantly expanding the innovative potential and efficiency of the design process. This paper explores the extensive applications of generative AI technologies in architectural design, a trend that has benefited from the rapid development of deep generative models. This article provides a comprehensive review of the basic principles of generative AI and large-scale models and highlights the applications in the generation of 2D images, videos, and 3D models. In addition, by reviewing the latest literature from 2020, this paper scrutinizes the impact of generative AI technologies at different stages of architectural design, from generating initial architectural 3D forms to producing final architectural imagery. The marked trend of research growth indicates an increasing inclination within the architectural design community towards embracing generative AI, thereby catalyzing a shared enthusiasm for research. These research cases and methodologies have not only proven to enhance efficiency and innovation significantly but have also posed challenges to the conventional boundaries of architectural creativity. Finally, we point out new directions for design innovation and articulate fresh trajectories for applying generative AI in the architectural domain. This article provides the first comprehensive literature review about generative AI for architectural design, and we believe this work can facilitate more research work on this significant topic in architecture.
翻訳日:2024-04-03 21:06:49 公開日:2024-03-30
# FineFake: 細粒度マルチドメインフェイクニュース検出のための知識豊富なデータセット

FineFake: A Knowledge-Enriched Dataset for Fine-Grained Multi-Domain Fake News Detecction ( http://arxiv.org/abs/2404.01336v1 )

ライセンス: Link先を確認
Ziyi Zhou, Xiaoming Zhang, Litian Zhang, Jiacheng Liu, Xi Zhang, Chaozhuo Li, (参考訳) フェイクニュース検出のための既存のベンチマークは、ニュースコンテンツの信頼性を評価するモデルの発展に大きく貢献している。 しかしながら、これらのベンチマークは一般的に、単一のセマンティックトピックに関連するニュースや、単一のプラットフォームに由来するニュースのみに焦点を当てているため、実際のシナリオにおけるマルチドメインニュースの多様性を捉えることができない。 様々な領域にわたる偽ニュースを理解するためには、外部の知識と微粒なアノテーションが不可欠であり、正確な証拠を提供し、既存のベンチマークでも無視されている製造戦略の多様さを明らかにする必要がある。 このギャップに対処するため、我々は、微細なアノテーションを持つ新しいマルチドメイン知識強化ベンチマーク「textbf{FineFake}」を紹介した。 FineFakeは6つのセマンティックトピックと8つのプラットフォームにまたがる16,909のデータサンプルを含んでいる。 各ニュース項目には、マルチモーダルコンテンツ、潜在的な社会的コンテキスト、半手動で検証された共通知識、従来のバイナリラベルを超越した微妙なアノテーションが備わっている。 さらに、ファインフェイクに基づく3つの課題を定式化し、知識に富んだドメイン適応ネットワークを提案する。 様々なシナリオ下でFinFake上で大規模な実験が行われ、将来の取り組みに対して正確で信頼性の高いベンチマークが提供される。 FineFakeプロジェクト全体は、オープンソースリポジトリとして、 \url{https://github.com/Accuser907/FineFake}で公開されている。

Existing benchmarks for fake news detection have significantly contributed to the advancement of models in assessing the authenticity of news content. However, these benchmarks typically focus solely on news pertaining to a single semantic topic or originating from a single platform, thereby failing to capture the diversity of multi-domain news in real scenarios. In order to understand fake news across various domains, the external knowledge and fine-grained annotations are indispensable to provide precise evidence and uncover the diverse underlying strategies for fabrication, which are also ignored by existing benchmarks. To address this gap, we introduce a novel multi-domain knowledge-enhanced benchmark with fine-grained annotations, named \textbf{FineFake}. FineFake encompasses 16,909 data samples spanning six semantic topics and eight platforms. Each news item is enriched with multi-modal content, potential social context, semi-manually verified common knowledge, and fine-grained annotations that surpass conventional binary labels. Furthermore, we formulate three challenging tasks based on FineFake and propose a knowledge-enhanced domain adaptation network. Extensive experiments are conducted on FineFake under various scenarios, providing accurate and reliable benchmarks for future endeavors. The entire FineFake project is publicly accessible as an open-source repository at \url{https://github.com/Accuser907/FineFake}.
翻訳日:2024-04-03 21:06:49 公開日:2024-03-30
# 自然言語処理と機械学習を組み合わせた金融ニュースの談話レベルの時間差検出

Detection of Temporality at Discourse Level on Financial News by Combining Natural Language Processing and Machine Learning ( http://arxiv.org/abs/2404.01337v1 )

ライセンス: Link先を確認
Silvia García-Méndez, Francisco de Arriba-Pérez, Ana Barros-Vila, Francisco J. González-Castaño, (参考訳) Bloomberg News、CNN Business、Forbesといった金融関連のニュースは、市場スクリーニングシステムにとって貴重なデータ源である。 ニュースの中では、専門家は、政治的、社会学的、文化的要因などの文脈を含む、普通の技術分析以上の意見を共有する。 同じテキストで、専門家は、しばしば異なる資産のパフォーマンスについて論じる。 いくつかの重要な言明は過去の出来事の単なる記述であり、他の言明は予測である。 したがって,テキスト中のキー文の時間性を理解することは,文脈情報を価値ある予測から切り離すのに不可欠である。 本稿では,自然言語処理技術と機械学習技術を組み合わせた談話レベルでの金融関連ニュースの時間性を検出するシステムを提案する。 より具体的には、主文の支配的な時制を抽出しようとしており、これは明示的あるいは暗黙的であるかもしれない。 この分野の知識を持つ研究者によって注釈付けされた金融関連ニュースのラベル付きデータセットを用いて,本システムを検証した。 実験により、代替ルールベースのベースラインアプローチと比較して高い検出精度が示された。 最終的に、この研究は、金融決定のための予測的知識を特定することによって、市場スクリーニングの最先端に寄与する。

Finance-related news such as Bloomberg News, CNN Business and Forbes are valuable sources of real data for market screening systems. In news, an expert shares opinions beyond plain technical analyses that include context such as political, sociological and cultural factors. In the same text, the expert often discusses the performance of different assets. Some key statements are mere descriptions of past events while others are predictions. Therefore, understanding the temporality of the key statements in a text is essential to separate context information from valuable predictions. We propose a novel system to detect the temporality of finance-related news at discourse level that combines Natural Language Processing and Machine Learning techniques, and exploits sophisticated features such as syntactic and semantic dependencies. More specifically, we seek to extract the dominant tenses of the main statements, which may be either explicit or implicit. We have tested our system on a labelled dataset of finance-related news annotated by researchers with knowledge in the field. Experimental results reveal a high detection precision compared to an alternative rule-based baseline approach. Ultimately, this research contributes to the state-of-the-art of market screening by identifying predictive knowledge for financial decision making.
翻訳日:2024-04-03 21:06:49 公開日:2024-03-30
# ラテント・ディリクレ・アロケーションを用いたトピック・モデリングによる金融ニュースの関連情報・予測・予測の自動検出

Automatic detection of relevant information, predictions and forecasts in financial news through topic modelling with Latent Dirichlet Allocation ( http://arxiv.org/abs/2404.01338v1 )

ライセンス: Link先を確認
Silvia García-Méndez, Francisco de Arriba-Pérez, Ana Barros-Vila, Francisco J. González-Castaño, Enrique Costa-Montenegro, (参考訳) 金融ニュースは、市場スクリーニングアプリケーションに関する知識を抽出するために採掘できる、構造化されていない情報のソースである。 金融関連のニュースの連続ストリームから関連する情報を手作業で抽出するのは面倒で、多くの投資家のスキルを超える。 そこで本研究では,関連するテキストを識別するための財務ニュースの分析と,そのテキスト内での予測と予測に焦点をあてる。 本研究では,非構造化テキストソースにおける関連財務事象の検出を支援する自然言語処理(NLP)システムを提案する。 まず、テキストを分割して、密接に関連するテキストをグループ化する。 第二に、セグメント内の内部依存性を発見するために、共参照解決を適用します。 最後に、LDA(Latent Dirichlet Allocation)を用いて関連するトピックモデリングを行い、関係の少ないテキストを分離し、機械学習指向の時間的アプローチを用いて関連するテキストを分析し、予測と投機的ステートメントを識別する。 我々は、NLP研究者によって手動でラベル付けされた2,158件の財務ニュース記事からなる実験データセットを作成し、そのソリューションを評価した。 関連テキストと予測・予測のROUGE-L値は0.662と0.982であった。 私たちの知る限りでは、これは分散レベルにおける関連性と時間性について共同で検討する最初の作品です。 マルチパラグラフのトピックセグメンテーションと共参照の解決を組み合わせて、著者の表現パターンを分離し、LDAを使って関連するテキストを検出するトピックモデリングを行い、このテキスト内の予測と予測を識別するための非帰的時間性分析を行うことによって、専門家システムへの人間の連想的談話能力の伝達に寄与する。

Financial news items are unstructured sources of information that can be mined to extract knowledge for market screening applications. Manual extraction of relevant information from the continuous stream of finance-related news is cumbersome and beyond the skills of many investors, who, at most, can follow a few sources and authors. Accordingly, we focus on the analysis of financial news to identify relevant text and, within that text, forecasts and predictions. We propose a novel Natural Language Processing (NLP) system to assist investors in the detection of relevant financial events in unstructured textual sources by considering both relevance and temporality at the discursive level. Firstly, we segment the text to group together closely related text. Secondly, we apply co-reference resolution to discover internal dependencies within segments. Finally, we perform relevant topic modelling with Latent Dirichlet Allocation (LDA) to separate relevant from less relevant text and then analyse the relevant text using a Machine Learning-oriented temporal approach to identify predictions and speculative statements. We created an experimental data set composed of 2,158 financial news items that were manually labelled by NLP researchers to evaluate our solution. The ROUGE-L values for the identification of relevant text and predictions/forecasts were 0.662 and 0.982, respectively. To our knowledge, this is the first work to jointly consider relevance and temporality at the discursive level. It contributes to the transfer of human associative discourse capabilities to expert systems through the combination of multi-paragraph topic segmentation and co-reference resolution to separate author expression patterns, topic modelling with LDA to detect relevant text, and discursive temporality analysis to identify forecasts and predictions within this text.
翻訳日:2024-04-03 21:06:49 公開日:2024-03-30
# 大規模プライバシ - PrivaSeer Corpus of Web Privacy Policiesの導入

Privacy at Scale: Introducing the PrivaSeer Corpus of Web Privacy Policies ( http://arxiv.org/abs/2004.11131v2 )

ライセンス: Link先を確認
Mukund Srinath, Shomir Wilson, C. Lee Giles, (参考訳) 組織は自身のウェブサイトにプライバシポリシーを投稿することで、プライバシのプラクティスを開示する。 ユーザはデジタルプライバシを気にすることが多いが、時間と労力に大きな投資を必要とするため、プライバシポリシを読まないことが多い。 自然言語処理はプライバシーポリシーの理解に役立つが、プライバシーポリシーの分析、理解、簡素化に使用できる大規模なプライバシーポリシーコーパスが不足している。 そこで、PrivaSeerという、100万以上の英語ウェブサイトのプライバシーポリシーのコーパスを作成しました。 ウェブをクローリングした後、言語検出、文書分類、重複・近重複除去、コンテンツ抽出を用いて文書をフィルタリングするコーパス生成パイプラインを設計する。 本研究では,コーパスの構成を調査し,可読性試験,文書類似性,キーフレーズ抽出,トピックモデリングによるコーパスの探索を行った。

Organisations disclose their privacy practices by posting privacy policies on their website. Even though users often care about their digital privacy, they often don't read privacy policies since they require a significant investment in time and effort. Although natural language processing can help in privacy policy understanding, there has been a lack of large scale privacy policy corpora that could be used to analyse, understand, and simplify privacy policies. Thus, we create PrivaSeer, a corpus of over one million English language website privacy policies, which is significantly larger than any previously available corpus. We design a corpus creation pipeline which consists of crawling the web followed by filtering documents using language detection, document classification, duplicate and near-duplication removal, and content extraction. We investigate the composition of the corpus and show results from readability tests, document similarity, keyphrase extraction, and explored the corpus through topic modeling.
翻訳日:2024-04-02 16:23:34 公開日:2024-03-30
# 時間的行動ローカライゼーションのためのビデオセルフストレッチグラフネットワーク

Video Self-Stitching Graph Network for Temporal Action Localization ( http://arxiv.org/abs/2011.14598v4 )

ライセンス: Link先を確認
Chen Zhao, Ali Thabet, Bernard Ghanem, (参考訳) ビデオにおける時間的行動ローカライゼーション(TAL)は、特に行動時間スケールの変動が大きいため、難しい課題である。 短いアクションは通常データセットで大きな割合を占めるが、パフォーマンスは低い傾向にある。 本稿では,ショートアクションの課題に直面し,VSGN(Video Self-Stitching Graph Network)と呼ばれるマルチレベルクロススケールソリューションを提案する。 VSGNには、ビデオセルフスティッチ(VSS)とクロススケールグラフピラミッドネットワーク(xGPN)の2つの重要なコンポーネントがあります。 VSSでは、ビデオの短い時間に焦点を合わせ、時間次元に沿って拡大し、より大きなスケールを得る。 元のクリップとその拡大されたクリップを1つの入力シーケンスで縫合し、両スケールの相補的特性を利用する。 xGPNコンポーネントはさらに、クロススケールグラフネットワークのピラミッドによるクロススケール相関を利用しており、それぞれが複数のスケールから同じスケールの機能を集約するハイブリッドモジュールを含んでいる。 我々のVSGNは、特徴表現を強化するだけでなく、短いアクションとより短いトレーニングサンプルのためのよりポジティブなアンカーを生成する。 実験によると、VSGNは明らかにショートアクションのローカライズ性能を改善し、THUMOS-14とActivityNet-v1.3の全体的なパフォーマンスを達成する。

Temporal action localization (TAL) in videos is a challenging task, especially due to the large variation in action temporal scales. Short actions usually occupy a major proportion in the datasets, but tend to have the lowest performance. In this paper, we confront the challenge of short actions and propose a multi-level cross-scale solution dubbed as video self-stitching graph network (VSGN). We have two key components in VSGN: video self-stitching (VSS) and cross-scale graph pyramid network (xGPN). In VSS, we focus on a short period of a video and magnify it along the temporal dimension to obtain a larger scale. We stitch the original clip and its magnified counterpart in one input sequence to take advantage of the complementary properties of both scales. The xGPN component further exploits the cross-scale correlations by a pyramid of cross-scale graph networks, each containing a hybrid module to aggregate features from across scales as well as within the same scale. Our VSGN not only enhances the feature representations, but also generates more positive anchors for short actions and more short training samples. Experiments demonstrate that VSGN obviously improves the localization performance of short actions as well as achieving the state-of-the-art overall performance on THUMOS-14 and ActivityNet-v1.3.
翻訳日:2024-04-02 16:23:34 公開日:2024-03-30
# スケール不変ロバスト密度認識距離(RDAD)フィルタによる小孔の検出

Detection of Small Holes by the Scale-Invariant Robust Density-Aware Distance (RDAD) Filtration ( http://arxiv.org/abs/2204.07821v3 )

ライセンス: Link先を確認
Chunyin Siu, Gennady Samorodnitsky, Christina Lee Yu, Andrey Yao, (参考訳) 確率密度関数の高密度領域で囲まれた雑音や小さな穴を識別するために,新しいトポロジカル・データ解析法(TDA)を提案する。 提案手法は, 付加音や外乱に対して頑健である。 距離フィルターに基づくような従来のTDAツールは、短い永続性を持つため、小さな特徴とノイズを区別するのに苦労することが多い。 ロバスト密度認識距離 (RDAD) フィルターと呼ばれる別の濾過法が提案され、高密度領域の小さな穴の永続性を延長する。 これはベル等における密度による距離関数の重み付けによって達成される。 提案フィルタの持続長特性とロバスト性は厳密に確立され, 数値実験により小孔同定におけるフィルタの有用性が実証された。

A novel topological-data-analytical (TDA) method is proposed to distinguish, from noise, small holes surrounded by high-density regions of a probability density function. The proposed method is robust against additive noise and outliers. Traditional TDA tools, like those based on the distance filtration, often struggle to distinguish small features from noise, because both have short persistences. An alternative filtration, called the Robust Density-Aware Distance (RDAD) filtration, is proposed to prolong the persistences of small holes of high-density regions. This is achieved by weighting the distance function by the density in the sense of Bell et al. The concept of distance-to-measure is incorporated to enhance stability and mitigate noise. The persistence-prolonging property and robustness of the proposed filtration are rigorously established, and numerical experiments are presented to demonstrate the proposed filtration's utility in identifying small holes.
翻訳日:2024-04-02 16:23:34 公開日:2024-03-30
# 原理的ブラックボックス知識蒸留のための論理生成の調整

Aligning Logits Generatively for Principled Black-Box Knowledge Distillation ( http://arxiv.org/abs/2205.10490v2 )

ライセンス: Link先を確認
Jing Ma, Xiang Xiang, Ke Wang, Yuchuan Wu, Yongbin Li, (参考訳) Black-Box Knowledge Distillation (B2KD)は、クラウドからエッジへのモデル圧縮において、サーバ上にホストされる見えないデータとモデルによって定式化された問題である。 B2KDは、インターネット交換の制限や、データ分散のエッジクラウド格差といった課題に直面している。 本稿では, 減量化と蒸留による2段階のワークフローを形式化し, 理論上, 直接ロジットアライメントとは異なるロジットからセル境界への新たな最適化方向を提供する。 そこで本研究では, ブラックボックスの煩雑なモデルを軽量に蒸留するKD (MEKD) を新たに提案する。 我々の手法は、ソフトレスポンスとハードレスポンスを区別せず、以下の2つから構成される。 1)民営化:教師機能の逆マッピングをジェネレータでエミュレートし、 2)蒸留:高次元画像点の距離を小さくすることで教師と学生モデルの低次元ロジットを整列させる。 教師と学生のペアが異なる場合, 様々なベンチマークで蒸留性能が向上し, 従来の最先端手法よりも優れていた。

Black-Box Knowledge Distillation (B2KD) is a formulated problem for cloud-to-edge model compression with invisible data and models hosted on the server. B2KD faces challenges such as limited Internet exchange and edge-cloud disparity of data distributions. In this paper, we formalize a two-step workflow consisting of deprivatization and distillation, and theoretically provide a new optimization direction from logits to cell boundary different from direct logits alignment. With its guidance, we propose a new method Mapping-Emulation KD (MEKD) that distills a black-box cumbersome model into a lightweight one. Our method does not differentiate between treating soft or hard responses, and consists of: 1) deprivatization: emulating the inverse mapping of the teacher function with a generator, and 2) distillation: aligning low-dimensional logits of the teacher and student models by reducing the distance of high-dimensional image points. For different teacher-student pairs, our method yields inspiring distillation performance on various benchmarks, and outperforms the previous state-of-the-art approaches.
翻訳日:2024-04-02 16:23:34 公開日:2024-03-30
# ENS-t-SNE:隣人にT-SNEを同時に埋め込む

ENS-t-SNE: Embedding Neighborhoods Simultaneously t-SNE ( http://arxiv.org/abs/2205.11720v3 )

ライセンス: Link先を確認
Jacob Miller, Vahan Huroyan, Raymundo Navarrete, Md Iqbal Hossain, Stephen Kobourov, (参考訳) 高次元データセットを視覚化する際には、次元の縮小技術が一般的に用いられ、データの単一の2次元ビューを提供する。 本稿では ENS-t-SNE: t-Stochastic Neighborhood Embeddingアプローチを一般化した近傍埋め込みアルゴリズムについて述べる。 ENS-t-SNEの3D埋め込みにおける異なる視点を使用することで、同じ高次元データセット内の異なるタイプのクラスタを視覚化することができる。 これにより、ビューアは異なるタイプのクラスタを確認し、追跡することができる。これは、対応するポイントを容易に識別できない複数の2D埋め込みを提供する場合、実行が困難である。 本稿では,現実世界の応用におけるENS-t-SNEの有用性を概説し,異なるタイプやサイズのデータセットを用いた定量的評価を行う。

When visualizing a high-dimensional dataset, dimension reduction techniques are commonly employed which provide a single 2-dimensional view of the data. We describe ENS-t-SNE: an algorithm for Embedding Neighborhoods Simultaneously that generalizes the t-Stochastic Neighborhood Embedding approach. By using different viewpoints in ENS-t-SNE's 3D embedding, one can visualize different types of clusters within the same high-dimensional dataset. This enables the viewer to see and keep track of the different types of clusters, which is harder to do when providing multiple 2D embeddings, where corresponding points cannot be easily identified. We illustrate the utility of ENS-t-SNE with real-world applications and provide an extensive quantitative evaluation with datasets of different types and sizes.
翻訳日:2024-04-02 16:23:34 公開日:2024-03-30
# WaveMix:画像解析のための資源効率の良いニューラルネットワーク

WaveMix: A Resource-efficient Neural Network for Image Analysis ( http://arxiv.org/abs/2205.14375v5 )

ライセンス: Link先を確認
Pranav Jeevan, Kavitha Viswanathan, Anandu A S, Amit Sethi, (参考訳) 我々は、リソース効率が高く、一般化可能でスケーラブルなコンピュータビジョンのための新しいニューラルネットワーク、WaveMixを提案する。 トレーニング可能なパラメータやGPU RAM、計算は少ないが、WaveMixネットワークは、いくつかのタスクで最先端の畳み込みニューラルネットワーク、ビジョントランスフォーマー、トークンミキサーと同等またはより良い精度を達成する。 この効率性は、時間、コスト、エネルギーの節約に変換できる。 これらのゲインを達成するために、WaveMixブロックで多レベル2次元離散ウェーブレット変換(2D-DWT)を用い、(1)スケール不変性、シフト不変性、エッジのスパース性という3つの強い画像先行値に基づいて空間情報を再構成し、(2)パラメータを追加せずに損失のない方法で、(3)特徴マップの空間サイズを小さくし、前向きと後向きのパスに必要なメモリと時間を短縮し、(4)畳み込みよりも早く受容野を拡張する。 アーキテクチャ全体は、自己相似で解像度を保ったWaveMixブロックのスタックであり、様々なタスクやリソース可用性のレベルに対して、アーキテクチャの柔軟性を可能にする。 WaveMixは、Cityscapesのセグメンテーションのための新しいベンチマークを確立し、Galaxy 10 DECals、Places-365、5つのEMNISTデータセット、iNAT-miniを分類し、他のベンチマークで競合的に実行する。 私たちのコードとトレーニングされたモデルは公開されています。

We propose a novel neural architecture for computer vision -- WaveMix -- that is resource-efficient and yet generalizable and scalable. While using fewer trainable parameters, GPU RAM, and computations, WaveMix networks achieve comparable or better accuracy than the state-of-the-art convolutional neural networks, vision transformers, and token mixers for several tasks. This efficiency can translate to savings in time, cost, and energy. To achieve these gains we used multi-level two-dimensional discrete wavelet transform (2D-DWT) in WaveMix blocks, which has the following advantages: (1) It reorganizes spatial information based on three strong image priors -- scale-invariance, shift-invariance, and sparseness of edges -- (2) in a lossless manner without adding parameters, (3) while also reducing the spatial sizes of feature maps, which reduces the memory and time required for forward and backward passes, and (4) expanding the receptive field faster than convolutions do. The whole architecture is a stack of self-similar and resolution-preserving WaveMix blocks, which allows architectural flexibility for various tasks and levels of resource availability. WaveMix establishes new benchmarks for segmentation on Cityscapes; and for classification on Galaxy 10 DECals, Places-365, five EMNIST datasets, and iNAT-mini and performs competitively on other benchmarks. Our code and trained models are publicly available.
翻訳日:2024-04-02 16:23:34 公開日:2024-03-30
# 階層型)多ラベル分類のための半教師付き予測クラスタリング木

Semi-supervised Predictive Clustering Trees for (Hierarchical) Multi-label Classification ( http://arxiv.org/abs/2207.09237v2 )

ライセンス: Link先を確認
Jurica Levatić, Michelangelo Ceci, Dragi Kocev, Sašo Džeroski, (参考訳) 半教師付き学習(SSL)は、ラベル付き例だけでなくラベル付き例を用いて予測モデルを学習する一般的な手法である。 分類と回帰の単純なタスクに対するSSLは、研究コミュニティから多くの注目を集めているが、構造に依存した変数を持つ複雑な予測タスクについては、適切には研究されていない。 これは、複数ラベル分類と階層的な多ラベル分類タスクのケースであり、複数のクラスラベルを同時に予測する難しいタスクに直面するために、追加情報を必要とする可能性がある。 本稿では,この側面を考察し,予測クラスタリング木の半教師付き学習に基づく(階層的な)マルチラベル分類手法を提案する。 また,この手法をアンサンブル学習に拡張し,ランダムな森林アプローチに基づく手法を提案する。 23個のデータセットに対して大規模な実験を行った結果,提案手法とその拡張性について有意な有益性を示した。 さらに、この手法は解釈可能性を保持し、古典的ツリーベースモデルの時間的複雑さを低減する。

Semi-supervised learning (SSL) is a common approach to learning predictive models using not only labeled examples, but also unlabeled examples. While SSL for the simple tasks of classification and regression has received a lot of attention from the research community, this is not properly investigated for complex prediction tasks with structurally dependent variables. This is the case of multi-label classification and hierarchical multi-label classification tasks, which may require additional information, possibly coming from the underlying distribution in the descriptive space provided by unlabeled examples, to better face the challenging task of predicting simultaneously multiple class labels. In this paper, we investigate this aspect and propose a (hierarchical) multi-label classification method based on semi-supervised learning of predictive clustering trees. We also extend the method towards ensemble learning and propose a method based on the random forest approach. Extensive experimental evaluation conducted on 23 datasets shows significant advantages of the proposed method and its extension with respect to their supervised counterparts. Moreover, the method preserves interpretability and reduces the time complexity of classical tree-based models.
翻訳日:2024-04-02 16:23:34 公開日:2024-03-30
# 自然言語による多段階推論:アウト・オブ・ディストリビューションの一般化に関する実証的研究

Multi-Step Deductive Reasoning Over Natural Language: An Empirical Study on Out-of-Distribution Generalisation ( http://arxiv.org/abs/2207.14000v3 )

ライセンス: Link先を確認
Qiming Bao, Alex Yuxuan Peng, Tim Hartill, Neset Tan, Zhenyun Deng, Michael Witbrock, Jiamou Liu, (参考訳) 深層学習と記号論理推論を組み合わせることは、両方の分野の成功に乗じることを目的としており、注目を集めている。 Inspireed by DeepLogic, a end-to-end model to perform inference on logic program, we introduced IMA-GloVe-GA, a iterationative neural inference network for multi-step reasoning expressed in natural language。 本モデルでは,RNNに基づく反復型メモリニューラルネットワークを用いて推論を行う。 IMA-GloVe-GAを3つのデータセット(PARARULES, CONCEPTRULES V1, CONCEPTRULES V2)で評価した。 実験の結果,注目度の高いDeepLogicは,DeepLogicや他のRNNベースラインモデルよりも高いテスト精度が得られることがわかった。 このモデルでは,ルールがシャッフルされた場合,RoBERTa-Largeよりも分布外一般化が優れている。 さらに、現在の多段階推論データセットにおける推論深度の不均衡分布の問題に対処するため、より深い推論ステップを必要とするサンプルを持つ大規模データセットであるPARARULE-Plusを開発した。 実験結果から,PARARULE-Plusの追加により,より深い推論深度を必要とする事例において,モデルの性能が向上することが示唆された。 ソースコードとデータはhttps://github.com/Strong-AI-Lab/Multi-Step-Deductive-Reasoning-Over-Natural-Languageで公開されている。

Combining deep learning with symbolic logic reasoning aims to capitalize on the success of both fields and is drawing increasing attention. Inspired by DeepLogic, an end-to-end model trained to perform inference on logic programs, we introduce IMA-GloVe-GA, an iterative neural inference network for multi-step reasoning expressed in natural language. In our model, reasoning is performed using an iterative memory neural network based on RNN with a gated attention mechanism. We evaluate IMA-GloVe-GA on three datasets: PARARULES, CONCEPTRULES V1 and CONCEPTRULES V2. Experimental results show DeepLogic with gated attention can achieve higher test accuracy than DeepLogic and other RNN baseline models. Our model achieves better out-of-distribution generalisation than RoBERTa-Large when the rules have been shuffled. Furthermore, to address the issue of unbalanced distribution of reasoning depths in the current multi-step reasoning datasets, we develop PARARULE-Plus, a large dataset with more examples that require deeper reasoning steps. Experimental results show that the addition of PARARULE-Plus can increase the model's performance on examples requiring deeper reasoning depths. The source code and data are available at https://github.com/Strong-AI-Lab/Multi-Step-Deductive-Reasoning-Over-Natural-Language.
翻訳日:2024-04-02 16:23:34 公開日:2024-03-30
# 多変量時系列における自己生成型逆数ネットワークの視覚的評価

Visually Evaluating Generative Adversarial Networks Using Itself under Multivariate Time Series ( http://arxiv.org/abs/2208.02649v2 )

ライセンス: Link先を確認
Qilong Pan, (参考訳) 特に生成モデルがGAN(Generative Adversarial Networks)である場合,生成したマルチ変数時系列(MTS)の良さを視覚的に評価することは困難である。 MTS生成タスクにおいて,GANを視覚的に評価するための一般フレームワークであるGaussian GANを提案する。 まず,多変数コルモゴロフ・スミルノフ(MKS)テストにおいて,GANのアーキテクチャを明示的に再構築することにより変換関数を求める。 第二に、変換 MST の正規性テストを行い、ガウス GAN が MKS テストの変換関数として機能する。 正規性試験を簡略化するために, カイ四角分布を用いた効率的な可視化法を提案する。 実験では,UniMiBデータセットを用いて,ガウスGANとチスカウレ視覚化を用いた正規性試験が有効で信頼性が高いことを示す実証的証拠を提供する。

Visually evaluating the goodness of generated Multivariate Time Series (MTS) are difficult to implement, especially in the case that the generative model is Generative Adversarial Networks (GANs). We present a general framework named Gaussian GANs to visually evaluate GANs using itself under the MTS generation task. Firstly, we attempt to find the transformation function in the multivariate Kolmogorov Smirnov (MKS) test by explicitly reconstructing the architecture of GANs. Secondly, we conduct the normality test of transformed MST where the Gaussian GANs serves as the transformation function in the MKS test. In order to simplify the normality test, an efficient visualization is proposed using the chi square distribution. In the experiment, we use the UniMiB dataset and provide empirical evidence showing that the normality test using Gaussian GANs and chi sqaure visualization is effective and credible.
翻訳日:2024-04-02 16:23:34 公開日:2024-03-30
# 脳波システムにおけるXAI法の適用に向けて

Toward the application of XAI methods in EEG-based systems ( http://arxiv.org/abs/2210.06554v3 )

ライセンス: Link先を確認
Andrea Apicella, Francesco Isgrò, Andrea Pollastro, Roberto Prevete, (参考訳) 良く知られたデータセットシフト問題の興味深い例は、脳-コンピュータインタフェース(BCI)の文脈における脳波(EEG)信号の分類である。 脳波信号の非定常性は、同じ主題から異なるセッションで使用されるBCI分類システムにおける一般化性能の低下につながる可能性がある。 本稿では,データセットシフト問題を,適切なeXplainable Artificial Intelligence(XAI)手法を用いて,分類目標の入力の関連特性を特定し,変換することで緩和できるという仮説から始める。 特に、感情認識のための典型的な脳波データセットに基づいて訓練されたMLシステムにおいて、XAI法によって生成された説明を実験的に分析することに焦点を当てた。 結果は、XAIメソッドで見つかる多くの関連コンポーネントがセッション間で共有され、より良い一般化が可能なシステムを構築するのに使用できることを示している。 しかし、入力信号の関連成分も入力自体に大きく依存しているように見える。

An interesting case of the well-known Dataset Shift Problem is the classification of Electroencephalogram (EEG) signals in the context of Brain-Computer Interface (BCI). The non-stationarity of EEG signals can lead to poor generalisation performance in BCI classification systems used in different sessions, also from the same subject. In this paper, we start from the hypothesis that the Dataset Shift problem can be alleviated by exploiting suitable eXplainable Artificial Intelligence (XAI) methods to locate and transform the relevant characteristics of the input for the goal of classification. In particular, we focus on an experimental analysis of explanations produced by several XAI methods on an ML system trained on a typical EEG dataset for emotion recognition. Results show that many relevant components found by XAI methods are shared across the sessions and can be used to build a system able to generalise better. However, relevant components of the input signal also appear to be highly dependent on the input itself.
翻訳日:2024-04-02 16:23:34 公開日:2024-03-30
# コーディネートワイド格差の発散による高実用性を有する差別プライバシ:ラプラス機構は高次元でガウスに勝る

Differential Privacy with Higher Utility by Exploiting Coordinate-wise Disparity: Laplace Mechanism can Beat Gaussian in High Dimensions ( http://arxiv.org/abs/2302.03511v2 )

ライセンス: Link先を確認
Gokularam Muthukrishnan, Sheetal Kalyani, (参考訳) 従来、差分的にプライベートな付加雑音機構では、応答のそれぞれの座標に独立かつ同一に分布するノイズサンプルが加算される。 本研究は, 独立性のあるノイズの追加を公式に提示するが, 座標上の不均一性を利用して, より厳密なプライバシー・正確性トレードオフを実現するために, 座標に均等に分散していない(すなわちd)。 特に、i.n.d. Gaussian と Laplace のメカニズムを研究し、これらのメカニズムがプライバシーを保証する条件を得る。 これらの条件を保証するパラメータの最適選択は理論的に導出される。 理論的解析と数値シミュレーションにより、i.i.d.のメカニズムは、i.i.d.のメカニズムと比較して、与えられたプライバシ要求に対して高い実用性を達成することが示された。 興味深い観察の1つは、座標的な感度の不規則性が悪用される場合、ラプラス機構は、一般的な信念とは対照的に、高次元においてもガウス的よりも優れていることである。 また、i.n.d.ノイズが座標降下によるプライベートな経験的リスク最小化の性能をいかに向上させるかを示す。

Conventionally, in a differentially private additive noise mechanism, independent and identically distributed (i.i.d.) noise samples are added to each coordinate of the response. In this work, we formally present the addition of noise which is independent, but not identically distributed (i.n.i.d.) across the coordinates to achieve tighter privacy-accuracy trade-off by exploiting coordinate-wise disparity. In particular, we study the i.n.i.d. Gaussian and Laplace mechanisms and obtain the conditions under which these mechanisms guarantee privacy. The optimal choice of parameters that ensure these conditions are derived theoretically. Theoretical analyses and numerical simulations demonstrate that the i.n.i.d. mechanisms achieve higher utility for the given privacy requirements compared to their i.i.d. counterparts. One of the interesting observations is that the Laplace mechanism outperforms Gaussian even in high dimensions, as opposed to the popular belief, if the irregularity in coordinate-wise sensitivities is exploited. We also demonstrate how the i.n.i.d. noise can improve the performance in the private empirical risk minimization through coordinate descent.
翻訳日:2024-04-02 16:13:48 公開日:2024-03-30
# 医用画像における予測的・コントラスト的自己教師型学習の展望

A Review of Predictive and Contrastive Self-supervised Learning for Medical Images ( http://arxiv.org/abs/2302.05043v2 )

ライセンス: Link先を確認
Wei-Chien Wang, Euijoon Ahn, Dagan Feng, Jinman Kim, (参考訳) 過去10年間で、手動でアノテートされたビッグデータの教師付きディープラーニングが、コンピュータビジョンタスクで大きく進歩している。 しかし, 医用画像解析における深層学習の適用は, 高品質な注記医用画像データの不足によって制限された。 SSLとは対照的なアプローチであり、教師付き学習に対抗したり、性能を向上させるのに最も成功したアプローチである。 本稿では,医学領域におけるSSL適用の最近の進歩,現状の限界,今後の方向性について論じる。

Over the last decade, supervised deep learning on manually annotated big data has been progressing significantly on computer vision tasks. But the application of deep learning in medical image analysis was limited by the scarcity of high-quality annotated medical imaging data. An emerging solution is self-supervised learning (SSL), among which contrastive SSL is the most successful approach to rivalling or outperforming supervised learning. This review investigates several state-of-the-art contrastive SSL algorithms originally on natural images as well as their adaptations for medical images, and concludes by discussing recent advances, current limitations, and future directions in applying contrastive SSL in the medical domain.
翻訳日:2024-04-02 16:13:48 公開日:2024-03-30
# 類似性・圧縮・局所ステップ:分散変分不等式のための効率的なコミュニケーションの3つの柱

Similarity, Compression and Local Steps: Three Pillars of Efficient Communications for Distributed Variational Inequalities ( http://arxiv.org/abs/2302.07615v2 )

ライセンス: Link先を確認
Aleksandr Beznosikov, Martin Takáč, Alexander Gasnikov, (参考訳) 変分不等式(英: variational inequality)は、極小化、サドル点、固定点問題を含む、広範かつ柔軟な問題のクラスである。 そのため、平衡探索から逆学習まで様々な応用で変分不等式が用いられている。 データやモデルのサイズが大きくなるにつれて、今日のインスタンスは現実の機械学習問題に対して並列コンピューティングと分散コンピューティングを必要とし、そのほとんどは変分不等式として表現できる。 一方、ほとんどの分散アプローチは通信コストという大きなボトルネックを抱えています。 通信ラウンドの総数と1ラウンドのコストを削減する3つの主要な手法は、ローカル関数の類似性、送信された情報の圧縮、ローカル更新である。 本稿では,これらすべてのアプローチを組み合わせる。 このような三重シナジーは、変分不等式やサドル問題、あるいは最小化問題に対しても以前には存在しなかった。 本稿では,通信複雑性の理論的保証が最良であり,分散変動不等式に対する他の手法よりもはるかに優れていることを示す。 理論的結果は、合成データセットと実データセットの逆学習実験によって確認される。

Variational inequalities are a broad and flexible class of problems that includes minimization, saddle point, and fixed point problems as special cases. Therefore, variational inequalities are used in various applications ranging from equilibrium search to adversarial learning. With the increasing size of data and models, today's instances demand parallel and distributed computing for real-world machine learning problems, most of which can be represented as variational inequalities. Meanwhile, most distributed approaches have a significant bottleneck - the cost of communications. The three main techniques to reduce the total number of communication rounds and the cost of one such round are the similarity of local functions, compression of transmitted information, and local updates. In this paper, we combine all these approaches. Such a triple synergy did not exist before for variational inequalities and saddle problems, nor even for minimization problems. The methods presented in this paper have the best theoretical guarantees of communication complexity and are significantly ahead of other methods for distributed variational inequalities. The theoretical results are confirmed by adversarial learning experiments on synthetic and real datasets.
翻訳日:2024-04-02 16:13:48 公開日:2024-03-30
# Visually Rich Documentsのためのクロスモーダルエンティティマッチング

Cross-Modal Entity Matching for Visually Rich Documents ( http://arxiv.org/abs/2303.00720v2 )

ライセンス: Link先を確認
Ritesh Sarkhel, Arnab Nandi, (参考訳) 視覚的にリッチなドキュメント(例えば、リーフレット、バナー、雑誌記事)は、視覚的手がかりを利用して意味を増強する物理またはデジタル文書である。 これらの文書に含まれる情報はアドホックであり、しばしば不完全である。 これらのドキュメントの構造化クエリを可能にする既存の作業は、これを考慮に入れない。 これにより、これらのドキュメントをクエリして取得した情報をコンテキスト化して、それらから実行可能な洞察を集めるのが難しくなる。 この制限に対処するクロスモーダルなエンティティマッチングフレームワークであるJunoを提案する。 文書内のテキストスパンと、外部データベースからのセマンティックに類似したタプルとをマッチングすることにより、異種文書を補足情報で拡張する。 私たちの主なコントリビューションはディープニューラルネットワークで、従来のキーワードベースのマッチングを超えて、テキストスパンとリレーショナルタプルを、ドキュメントタイプや基本スキーマに関する事前知識のないマルチモーダルエンコーディングスペースにアライメントすることで、マッチングタプルを見つけます。 複数の実世界のデータセットに対する発掘実験は、Junoが多種多様なレイアウトとフォーマットを持つ異種文書に一般化していることを示している。 最先端のベースラインを6 F1ポイント以上上回り、ヒトラベルのサンプルを60%も減らしている。 我々の実験は、Junoが計算的に堅牢なフレームワークであることをさらに示している。 一度だけトレーニングし、その後、下流のパフォーマンスを犠牲にすることなく、複数のリソース制約のある環境に動的に適応できます。 これにより、さまざまなエッジデバイスにおけるデバイス上のデプロイメントに適している。 我々の知る限りでは、視覚的にリッチなドキュメントの情報不完全性を調査する最初の研究であり、エンドツーエンドで対処するための一般化可能で、パフォーマンスが高く、堅牢なフレームワークを提案する。

Visually rich documents (e.g. leaflets, banners, magazine articles) are physical or digital documents that utilize visual cues to augment their semantics. Information contained in these documents are ad-hoc and often incomplete. Existing works that enable structured querying on these documents do not take this into account. This makes it difficult to contextualize the information retrieved from querying these documents and gather actionable insights from them. We propose Juno -- a cross-modal entity matching framework to address this limitation. It augments heterogeneous documents with supplementary information by matching a text span in the document with semantically similar tuples from an external database. Our main contribution in this is a deep neural network with attention that goes beyond traditional keyword-based matching and finds matching tuples by aligning text spans and relational tuples on a multimodal encoding space without any prior knowledge about the document type or the underlying schema. Exhaustive experiments on multiple real-world datasets show that Juno generalizes to heterogeneous documents with diverse layouts and formats. It outperforms state-of-the-art baselines by more than 6 F1 points with up to 60% less human-labeled samples. Our experiments further show that Juno is a computationally robust framework. We can train it only once, and then adapt it dynamically for multiple resource-constrained environments without sacrificing its downstream performance. This makes it suitable for on-device deployment in various edge-devices. To the best of our knowledge, ours is the first work that investigates the information incompleteness of visually rich documents and proposes a generalizable, performant and computationally robust framework to address it in an end-to-end way.
翻訳日:2024-04-02 16:13:48 公開日:2024-03-30
# TSP6Kデータセットによる交通シーン解析

Traffic Scene Parsing through the TSP6K Dataset ( http://arxiv.org/abs/2303.02835v2 )

ライセンス: Link先を確認
Peng-Tao Jiang, Yuqi Yang, Yang Cao, Qibin Hou, Ming-Ming Cheng, Chunhua Shen, (参考訳) コンピュータビジョンにおける交通シーンの認識は、インテリジェントな都市を実現するための重要な課題である。 現在までに、ほとんどのデータセットは自動運転シーンに焦点を当てている。 運転データセットでトレーニングされたモデルが、交通監視のシーンで不満足な結果をもたらすことがよくあります。 しかしながら、トラフィック監視シーンの理解を改善する努力はほとんど行われていない。 このギャップを埋めるために、トラフィック監視シナリオの画像を含む、TSP6Kと呼ばれる特殊なトラフィック監視データセットを導入し、高品質なピクセルレベルのアノテーションとインスタンスレベルのアノテーションを提供する。 TSP6Kデータセットは、既存の運転シーンの何倍ものトラフィック参加者を持つ、より混雑した交通シーンをキャプチャする。 本研究では,データセットの詳細な解析を行い,従来のシーン解析手法,インスタンスセグメンテーション手法,教師なしドメイン適応手法を網羅的に評価する。 さらに,インスタンスサイズが大きく異なることを考慮すると,提案したTSP6Kデータセットにより,トラフィックシーンの異なるセマンティック領域の詳細を復元するシーン解析用詳細精細デコーダを提案する。 実験は、交通監視シーンを解析する効果を示す。 コードとデータセットはhttps://github.com/PengtaoJiang/TSP6Kで公開されている。

Traffic scene perception in computer vision is a critically important task to achieve intelligent cities. To date, most existing datasets focus on autonomous driving scenes. We observe that the models trained on those driving datasets often yield unsatisfactory results on traffic monitoring scenes. However, little effort has been put into improving the traffic monitoring scene understanding, mainly due to the lack of specific datasets. To fill this gap, we introduce a specialized traffic monitoring dataset, termed TSP6K, containing images from the traffic monitoring scenario, with high-quality pixel-level and instance-level annotations. The TSP6K dataset captures more crowded traffic scenes with several times more traffic participants than the existing driving scenes. We perform a detailed analysis of the dataset and comprehensively evaluate previous popular scene parsing methods, instance segmentation methods and unsupervised domain adaption methods. Furthermore, considering the vast difference in instance sizes, we propose a detail refining decoder for scene parsing, which recovers the details of different semantic regions in traffic scenes owing to the proposed TSP6K dataset. Experiments show its effectiveness in parsing the traffic monitoring scenes. Code and dataset are available at https://github.com/PengtaoJiang/TSP6K.
翻訳日:2024-04-02 16:13:48 公開日:2024-03-30
# MAPSeg:3次元マスケード自動符号化と擬似ラベリングに基づく不均一な医用画像分割のための一元的ドメイン適応

MAPSeg: Unified Unsupervised Domain Adaptation for Heterogeneous Medical Image Segmentation Based on 3D Masked Autoencoding and Pseudo-Labeling ( http://arxiv.org/abs/2303.09373v3 )

ライセンス: Link先を確認
Xuzhe Zhang, Yuhao Wu, Elsa Angelini, Ang Li, Jia Guo, Jerod M. Rasmussen, Thomas G. O'Connor, Pathik D. Wadhwa, Andrea Parolin Jackowski, Hai Li, Jonathan Posner, Andrew F. Laine, Yun Wang, (参考訳) ロバストセグメンテーションは、大規模、多施設、縦断的な医療スキャンから定量的測定を導出するために重要である。 しかし、手動でアノテートする医療スキャンは高価で労働集約的であり、すべてのドメインで利用できるとは限らない。 教師なしドメイン適応(Unsupervised domain adapt, UDA)は、他のドメインから利用可能なラベルを活用することで、このラベルとスカシティの問題を軽減する、よく研究されている手法である。 本研究では,多種多様な医用画像のセグメンテーションにおいて,多目的性と優れた性能を有する$\textbf{unified}$ UDAフレームワークであるMasked Autoencoding and Pseudo-Labeling Segmentation (MAPSeg)を紹介する。 我々の知る限りでは、医療画像セグメンテーションにおける4つの異なるドメインシフトに取り組むための枠組みを体系的にレビューし、開発する最初の研究である。 さらに重要なのは、MAPSegは、同等のパフォーマンスを維持しながら、$\textbf{centralized}$, $\textbf{federated}$, $\textbf{test-time}$ UDAに適用できる最初のフレームワークである。 我々は,MAPSegを,乳幼児用MRIデータセットと一般用CT-MRIデータセットの最先端手法と比較し,MAPSegは他者よりも大きなマージン(プライベートMRIデータセットの10.5Dice,一般用CT-MRIデータセットの5.7Dice改善)で優れていた。 MAPSegは非常に実用的価値があり、現実世界の問題にも適用できる。 GitHub: https://github.com/XuzheZ/MAPSeg/.com

Robust segmentation is critical for deriving quantitative measures from large-scale, multi-center, and longitudinal medical scans. Manually annotating medical scans, however, is expensive and labor-intensive and may not always be available in every domain. Unsupervised domain adaptation (UDA) is a well-studied technique that alleviates this label-scarcity problem by leveraging available labels from another domain. In this study, we introduce Masked Autoencoding and Pseudo-Labeling Segmentation (MAPSeg), a $\textbf{unified}$ UDA framework with great versatility and superior performance for heterogeneous and volumetric medical image segmentation. To the best of our knowledge, this is the first study that systematically reviews and develops a framework to tackle four different domain shifts in medical image segmentation. More importantly, MAPSeg is the first framework that can be applied to $\textbf{centralized}$, $\textbf{federated}$, and $\textbf{test-time}$ UDA while maintaining comparable performance. We compare MAPSeg with previous state-of-the-art methods on a private infant brain MRI dataset and a public cardiac CT-MRI dataset, and MAPSeg outperforms others by a large margin (10.5 Dice improvement on the private MRI dataset and 5.7 on the public CT-MRI dataset). MAPSeg poses great practical value and can be applied to real-world problems. GitHub: https://github.com/XuzheZ/MAPSeg/.
翻訳日:2024-04-02 16:04:03 公開日:2024-03-30
# 変圧器を用いたトップダウンとボトムアップの走査パス予測の統一

Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers ( http://arxiv.org/abs/2303.09383v3 )

ライセンス: Link先を確認
Zhibo Yang, Sounak Mondal, Seoyoung Ahn, Ruoyu Xue, Gregory Zelinsky, Minh Hoai, Dimitris Samaras, (参考訳) 視覚的注意のほとんどのモデルは、異なる視覚的検索と自由視聴タスクを用いて、トップダウンまたはボトムアップの制御を予測することを目的としている。 本稿では,注意制御の両形態を予測する単一モデルであるヒューマンアテンショントランスフォーマー(HAT)を提案する。 HATは、新しいトランスフォーマーベースのアーキテクチャと、人間の動的視覚的ワーキングメモリに似た時空間的認識を集合的に生み出す、単純化された葉状網膜を使用している。 HATは、目標現在および目標被写体探索における固定の走査パスを予測し、自由な視線を観察するだけでなく、人間の視線行動の解釈を可能にする新しい最先端技術を確立している。 固定セルの粗いグリッドと固定の離散化による情報損失を経験する従来の方法とは異なり、HATは逐次的に密集した予測アーキテクチャを備え、各固定に対する密集したヒートマップを出力する。 HATは、有効性、一般性、解釈可能性を強調する、計算的注意の新たな標準を定めている。 HATの実証されたスコープと適用性は、様々な注意を必要とするシナリオにおける人間の振る舞いをより正確に予測できる新しい注意モデルの開発を刺激する可能性が高い。 コードはhttps://github.com/cvlab-stonybrook/HAT.comで入手できる。

Most models of visual attention aim at predicting either top-down or bottom-up control, as studied using different visual search and free-viewing tasks. In this paper we propose the Human Attention Transformer (HAT), a single model that predicts both forms of attention control. HAT uses a novel transformer-based architecture and a simplified foveated retina that collectively create a spatio-temporal awareness akin to the dynamic visual working memory of humans. HAT not only establishes a new state-of-the-art in predicting the scanpath of fixations made during target-present and target-absent visual search and ``taskless'' free viewing, but also makes human gaze behavior interpretable. Unlike previous methods that rely on a coarse grid of fixation cells and experience information loss due to fixation discretization, HAT features a sequential dense prediction architecture and outputs a dense heatmap for each fixation, thus avoiding discretizing fixations. HAT sets a new standard in computational attention, which emphasizes effectiveness, generality, and interpretability. HAT's demonstrated scope and applicability will likely inspire the development of new attention models that can better predict human behavior in various attention-demanding scenarios. Code is available at https://github.com/cvlab-stonybrook/HAT.
翻訳日:2024-04-02 16:04:03 公開日:2024-03-30
# Tram: ソースコード要約のためのトークンレベルの検索強化メカニズム

Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization ( http://arxiv.org/abs/2305.11074v3 )

ライセンス: Link先を確認
Tong Ye, Lingfei Wu, Tengfei Ma, Xuhong Zhang, Yangkai Du, Peiyu Liu, Shouling Ji, Wenhai Wang, (参考訳) プログラムの機能を記述するヒューマン可読テキストの自動生成は、ソースコードの要約の意図である。 この分野では、ニューラルネットワークモデルは大きなパフォーマンスを達成するが、外部知識にアクセスできないため制限されている。 この制限に対処するために、新たなトレンドは、ニューラルネットワークと外部知識を検索方法で組み合わせることである。 従来はエンコーダ側の文レベルの検索パラダイムに頼っていた。 しかし、このパラダイムは粗く、ノイズが充満しており、デコーダ側の高品質なサマリトークンを直接利用できない。 本稿では、エンコーダ側ではなくデコーダ側で、より微細なトークンレベルの検索強化機構(Tram)を提案し、ニューラルネットワークの性能を高め、要約を生成する際により低周波のトークンを生成する。 さらに、文脈的コード意味論の獲得におけるトークンレベルの検索の課題を克服するために、コード意味論を個々の要約トークンに統合することを提案する。 広範囲な実験と人的評価の結果,トークンレベルの検索強化アプローチにより,性能が大幅に向上し,解釈性も向上した。

Automatically generating human-readable text describing the functionality of a program is the intent of source code summarization. Although neural language models achieve significant performance in this field, they are limited by their inability to access external knowledge. To address this limitation, an emerging trend is combining neural models with external knowledge through retrieval methods. Previous methods have relied on the sentence-level retrieval paradigm on the encoder side. However, this paradigm is coarse-grained, noise-filled and cannot directly take advantage of the high-quality retrieved summary tokens on the decoder side. In this paper, we propose a fine-grained Token-level retrieval-augmented mechanism (Tram) on the decoder side rather than the encoder side to enhance the performance of neural models and produce more low-frequency tokens in generating summaries. Furthermore, to overcome the challenge of token-level retrieval in capturing contextual code semantics, we also propose integrating code semantics into individual summary tokens. The results of extensive experiments and human evaluation show that our token-level retrieval-augmented approach significantly improves performance and is more interpretable.
翻訳日:2024-04-02 16:04:03 公開日:2024-03-30
# 論理推論のための抽象的表現に基づく論理駆動型データ拡張

Abstract Meaning Representation-Based Logic-Driven Data Augmentation for Logical Reasoning ( http://arxiv.org/abs/2305.12599v4 )

ライセンス: Link先を確認
Qiming Bao, Alex Yuxuan Peng, Zhenyun Deng, Wanjun Zhong, Gael Gendron, Timothy Pistotti, Neset Tan, Nathan Young, Yang Chen, Yonghua Zhu, Paul Denny, Michael Witbrock, Jiamou Liu, (参考訳) 大きな言語モデルと論理的推論を組み合わせることで、堅牢で信頼性の高い方法で問題に対処する能力が向上する。 それでも、論理的推論の複雑な性質は、総合的なトレーニングデータセットを構築するためにWebから信頼できるデータを集めることの難しさを招き、その後、下流タスクのパフォーマンスに影響を及ぼす。 そこで我々はAMR-LDAという新しい論理駆動型データ拡張手法を提案する。 AMR-LDAは、元のテキストを抽象的意味表現(AMR)グラフに変換する。 修正されたAMRグラフは、拡張データを生成するためにテキストに変換される。 特に,本手法は,GPT-3.5 や GPT-4 などの生成的大言語モデルと,論理駆動型データ拡張による対照的な学習による識別的大言語モデルの両方をアーキテクチャに依存しない。 実験的な証拠は,論理的推論,テキストの包含,自然言語推論など,7つの下流タスクにおける性能向上を図り,提案手法の有効性を裏付けるものである。 さらに、我々の手法はReClorのリーダーボード(https://eval.ai/web/challenges/challenge-page/503/ Leaderboard/1347)に導かれる。 ソースコードとデータはhttps://bit.ly/3OWKe8rで公開されている。

Combining large language models with logical reasoning enhances their capacity to address problems in a robust and reliable manner. Nevertheless, the intricate nature of logical reasoning poses challenges to gathering reliable data from the web for building comprehensive training datasets, subsequently affecting the performance on downstream tasks. To address this, we introduce a novel logic-driven data augmentation approach, AMR-LDA. AMR-LDA converts the original text into an Abstract Meaning Representation (AMR) graph, a structured semantic representation that encapsulates the logic structure of the sentence, upon which operations are performed to generate logically modified AMR graphs. The modified AMR graphs are subsequently converted back into text to create augmented data. Notably, our methodology is architecture-agnostic and enhances both generative large language models, such as GPT-3.5 and GPT-4, through prompt augmentation, and discriminative large language models through contrastive learning with logic-driven data augmentation. Empirical evidence underscores the efficacy of our proposed method with improvement in performance across seven downstream tasks, such as reading comprehension requiring logical reasoning, textual entailment, and natural language inference. Furthermore, our method leads on the ReClor leaderboard (https://eval.ai/web/challenges/challenge-page/503/leaderboard/1347). The source code and data are publicly available https://bit.ly/3OWKe8r.
翻訳日:2024-04-02 16:04:03 公開日:2024-03-30
# モノリンガルデータは多言語翻訳に役立つ:ドメインとモデル・スケールの役割

When Does Monolingual Data Help Multilingual Translation: The Role of Domain and Model Scale ( http://arxiv.org/abs/2305.14124v3 )

ライセンス: Link先を確認
Christos Baziotis, Biao Zhang, Alexandra Birch, Barry Haddow, (参考訳) 並列データと単言語データの混合に基づいて訓練された多言語機械翻訳(MMT)は、低リソース言語ペアの翻訳を改善する鍵となる。 しかし、この文献はモノリンガルデータを含む様々な方法のパフォーマンスに矛盾する結果をもたらす。 そこで本研究では,DAE(Denoising Autoencoding)とBT(Back Translation)がMPTにどう影響するかを,異なるデータ条件とモデルスケールで検討する。 従来の研究とは異なり、100の翻訳方向の現実的なデータセットを使用し、モノリンガルデータとテストデータの多くのドメインの組み合わせを検討する。 モノリンガルデータは一般的にMTMに役立つが、モデルは驚くほどドメインミスマッチ、特により小さなモデルスケールでは不安定である。 BTは、並列、単言語、およびテストデータソースが類似している場合に有用であるが、それ以外は有害であり、DAEは以前報告したよりも効果が低い。 次に、スケールの影響(90Mから1.6Bパラメータ)を分析し、これら2つの手法、特にDAEにとって重要であることを発見した。 スケールが大きくなるにつれて、DAEは並列のみのベースラインを90Mで過小評価することから、BTのパフォーマンスを1.6Bで収束させ、低リソースでそれを上回るものへと移行する。 これらの結果は、MTでモノリンガルデータを最大限に利用する方法について、新たな洞察を与えてくれる。

Multilingual machine translation (MMT), trained on a mixture of parallel and monolingual data, is key for improving translation in low-resource language pairs. However, the literature offers conflicting results on the performance of different methods of including monolingual data. To resolve this, we examine how denoising autoencoding (DAE) and backtranslation (BT) impact MMT under different data conditions and model scales. Unlike prior studies, we use a realistic dataset of 100 translation directions and consider many domain combinations of monolingual and test data. We find that monolingual data generally helps MMT, but models are surprisingly brittle to domain mismatches, especially at smaller model scales. BT is beneficial when the parallel, monolingual, and test data sources are similar but can be detrimental otherwise, while DAE is less effective than previously reported. Next, we analyze the impact of scale (from 90M to 1.6B parameters) and find it is important for both methods, particularly DAE. As scale increases, DAE transitions from underperforming the parallel-only baseline at 90M to converging with BT performance at 1.6B, and even surpassing it in low-resource. These results offer new insights into how to best use monolingual data in MMT.
翻訳日:2024-04-02 16:04:03 公開日:2024-03-30
# マルコフ雑音を用いた一次法-加速度から変分不等式へ

First Order Methods with Markovian Noise: from Acceleration to Variational Inequalities ( http://arxiv.org/abs/2305.15938v2 )

ライセンス: Link先を確認
Aleksandr Beznosikov, Sergey Samsonov, Marina Sheshukova, Alexander Gasnikov, Alexey Naumov, Eric Moulines, (参考訳) 本稿ではマルコフ雑音を含む確率的最適化問題について述べる。 確率的最適化と変分不等式に対する一階勾配法の理論解析のための統一的なアプローチを提案する。 提案手法は,非凸および強凸の最小化問題のシナリオを網羅する。 雑音列の混合時間に最適な(線形)依存を実現するために,マルチレベルモンテカルロ法に基づくランダム化バッチ方式を用いる。 さらに,この手法により,有界領域や一様有界確率勾配といったマルコフ雑音に関するこれまでの研究の限界仮定を排除できる。 マルコフ雑音下での変分不等式への拡張はオリジナルである。 さらに,厳密な凸最適化問題の場合,本手法のオラクル複雑性に適合する低境界を提供する。

This paper delves into stochastic optimization problems that involve Markovian noise. We present a unified approach for the theoretical analysis of first-order gradient methods for stochastic optimization and variational inequalities. Our approach covers scenarios for both non-convex and strongly convex minimization problems. To achieve an optimal (linear) dependence on the mixing time of the underlying noise sequence, we use the randomized batching scheme, which is based on the multilevel Monte Carlo method. Moreover, our technique allows us to eliminate the limiting assumptions of previous research on Markov noise, such as the need for a bounded domain and uniformly bounded stochastic gradients. Our extension to variational inequalities under Markovian noise is original. Additionally, we provide lower bounds that match the oracle complexity of our method in the case of strongly convex optimization problems.
翻訳日:2024-04-02 15:54:17 公開日:2024-03-30
# モーフィング攻撃の最小化に向けて -- モーフィング対選択のためのディープ埋め込みと改善されたモーフィング攻撃検出

Towards minimizing efforts for Morphing Attacks -- Deep embeddings for morphing pair selection and improved Morphing Attack Detection ( http://arxiv.org/abs/2305.18216v2 )

ライセンス: Link先を確認
Roman Kessler, Kiran Raja, Juan Tapia, Christoph Busch, (参考訳) Face Morphing Attacksは、IDドキュメントのセキュリティ、特にその後のアクセス制御プロセスに対する脅威となる。 本研究では,大規模なモーフィング攻撃発生のための画像選択と,潜在的モーフィング攻撃の検出の2つの目的について検討した。 我々は、MagFaceモデルを使用して、両方のユースケースに以前の埋め込み研究を構築します。 最初の目的として、顔埋め込み類似性に基づいて個人をペア化する事前選択アルゴリズムを用いる。 我々は、異なる形態の顔画像の攻撃電位を定量化し、多数のモルフィング攻撃を自動生成する事前選択のユーザビリティを比較する。 第2の目的について、モーフィング攻撃を検出する能力の観点から、2つの最先端の顔認識システムからの埋め込みを比較した。 以上の結果から,ArcFaceとMagFaceは画像選択に有用な顔埋め込みを提供することがわかった。 オープンソースとCOTSの両方の顔認識システムは、特にソフトバイオメトリックスのみに制約されたランダムなペアリングではなく、組み込まれている場合、発生した攻撃に影響を受けやすい。 より正確な顔認識システムでは、攻撃に対する脆弱性が大きく、COTSシステムは最も影響を受けやすい。 さらに、MagFaceの埋め込みは、以前使用されていたArcFaceの埋め込みと比較して、変形した顔画像を検出するための堅牢な代替手段として機能する。 その結果, 顔形態形成のための画像前選択と, 顔画像の正確な検出において, 顔埋め込みの利点を裏付けることができた。 これは、様々な設計された攻撃の広範な分析によって支えられている。 MagFaceモデルは、目標、選択前、攻撃検出の両方に一般的に使用されるArcFaceモデルの強力な代替品であることが証明されている。

Face Morphing Attacks pose a threat to the security of identity documents, especially with respect to a subsequent access control process, because it enables both individuals involved to exploit the same document. In this study, face embeddings serve two purposes: pre-selecting images for large-scale Morphing Attack generation and detecting potential Morphing Attacks. We build upon previous embedding studies in both use cases using the MagFace model. For the first objective, we employ an pre-selection algorithm that pairs individuals based on face embedding similarity. We quantify the attack potential of differently morphed face images to compare the usability of pre-selection in automatically generating numerous successful Morphing Attacks. Regarding the second objective, we compare embeddings from two state-of-the-art face recognition systems in terms of their ability to detect Morphing Attacks. Our findings demonstrate that ArcFace and MagFace provide valuable face embeddings for image pre-selection. Both open-source and COTS face recognition systems are susceptible to generated attacks, particularly when pre-selection is based on embeddings rather than random pairing which was only constrained by soft biometrics. More accurate face recognition systems exhibit greater vulnerability to attacks, with COTS systems being the most susceptible. Additionally, MagFace embeddings serve as a robust alternative for detecting morphed face images compared to the previously used ArcFace embeddings. The results endorse the advantages of face embeddings in more effective image pre-selection for face morphing and accurate detection of morphed face images. This is supported by extensive analysis of various designed attacks. The MagFace model proves to be a powerful alternative to the commonly used ArcFace model for both objectives, pre-selection and attack detection.
翻訳日:2024-04-02 15:54:17 公開日:2024-03-30
# SQL-PaLM: テキストからSQLへの大規模言語モデル適応の改善(拡張)

SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) ( http://arxiv.org/abs/2306.00739v4 )

ライセンス: Link先を確認
Ruoxi Sun, Sercan Ö. Arik, Alex Muzio, Lesly Miculicich, Satya Gundabathula, Pengcheng Yin, Hanjun Dai, Hootan Nakhost, Rajarishi Sinha, Zifeng Wang, Tomas Pfister, (参考訳) 自然言語を構造化クエリ言語(SQL)に変換するプロセスであるText-to-SQLは、大規模言語モデル(LLM)の変換アプリケーションであり、人間がデータと対話する方法に革命をもたらす可能性がある。 本稿では,LLMを用いたテキスト・トゥ・SQLの理解と拡張のための総合的なソリューションであるSQL-PaLMフレームワークについて紹介する。 数発のプロンプトで、実行ベースのエラーフィルタリングによる一貫性復号化の有効性について検討する。 命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。 特に、トレーニングデータカバレッジと多様性の拡大、合成データ拡張、クエリ固有のデータベースコンテンツの統合により、パフォーマンスをどのように改善できるかを検討する。 本稿では,複数のパラダイムからのSQL出力と,実行フィードバックをガイダンスとして統合することにより,精度を向上するテスト時間選択手法を提案する。 さらに、大量のテーブルや列で複雑なデータベースをナビゲートする実践的な課題に取り組み、関連するデータベース要素を正確に選択し、テキストからSQLのパフォーマンスを向上させるための効率的な手法を提案する。 私たちの総合的なアプローチは、SpiderとBIRDという2つの主要な公開ベンチマークで示されているように、Text-to-SQLの大幅な進歩をもたらします。 包括的な改善とエラー分析を通じて、私たちはフレームワークの長所と短所に光を当て、Text-to-SQLの将来的な作業に関する貴重な洞察を提供しました。

Text-to-SQL, the process of translating natural language into Structured Query Language (SQL), represents a transformative application of large language models (LLMs), potentially revolutionizing how humans interact with data. This paper introduces the SQL-PaLM framework, a comprehensive solution for understanding and enhancing Text-to-SQL using LLMs, using in the learning regimes of few-shot prompting and instruction fine-tuning. With few-shot prompting, we explore the effectiveness of consistency decoding with execution-based error filtering. With instruction fine-tuning, we delve deep in understanding the critical paradigms that influence the performance of tuned LLMs. In particular, we investigate how performance can be improved through expanded training data coverage and diversity, synthetic data augmentation, and integrating query-specific database content. We propose a test-time selection method to further refine accuracy by integrating SQL outputs from multiple paradigms with execution feedback as guidance. Additionally, we tackle the practical challenge of navigating intricate databases with a significant number of tables and columns, proposing efficient techniques for accurately selecting relevant database elements to enhance Text-to-SQL performance. Our holistic approach yields substantial advancements in Text-to-SQL, as demonstrated on two key public benchmarks, Spider and BIRD. Through comprehensive ablations and error analyses, we shed light on the strengths and weaknesses of our framework, offering valuable insights into Text-to-SQL's future work.
翻訳日:2024-04-02 15:54:17 公開日:2024-03-30
# MCTS: マルチリファレンス中国語テキスト簡易化データセット

MCTS: A Multi-Reference Chinese Text Simplification Dataset ( http://arxiv.org/abs/2306.02796v2 )

ライセンス: Link先を確認
Ruining Chong, Luming Lu, Liner Yang, Jinran Nie, Zhenghao Liu, Shuo Wang, Shuhan Zhou, Yaoxin Li, Erhong Yang, (参考訳) テキストの単純化は、書き直し変換を適用することで、テキストの理解を容易にすることを目的としている。 漢文の簡体化に関する研究は、古くからほとんど行われていない。 一般的な評価データがないことが、この現象の重要な理由である。 本稿では,マルチ参照中国語テキスト単純化データセットであるMCTSを紹介する。 本稿では,データセットのアノテーションプロセスについて記述し,詳細な分析を行う。 さらに,教師なし手法と高度な大規模言語モデルの性能評価を行った。 また、機械翻訳と英語テキストの簡易化を利用して、学習に使用できる中国語テキストの簡易化データも提供する。 基礎研究を通じて漢文の簡易化に関する基本的な理解を構築し,今後の研究への参考資料の提供を期待する。 すべてのコードとデータはhttps://github.com/blcuicall/mcts/で公開される。

Text simplification aims to make the text easier to understand by applying rewriting transformations. There has been very little research on Chinese text simplification for a long time. The lack of generic evaluation data is an essential reason for this phenomenon. In this paper, we introduce MCTS, a multi-reference Chinese text simplification dataset. We describe the annotation process of the dataset and provide a detailed analysis. Furthermore, we evaluate the performance of several unsupervised methods and advanced large language models. We additionally provide Chinese text simplification parallel data that can be used for training, acquired by utilizing machine translation and English text simplification. We hope to build a basic understanding of Chinese text simplification through the foundational work and provide references for future research. All of the code and data are released at https://github.com/blcuicall/mcts/.
翻訳日:2024-04-02 15:54:17 公開日:2024-03-30
# 論文ネットワークを用いたコントラスト学習

Subgraph Networks Based Contrastive Learning ( http://arxiv.org/abs/2306.03506v2 )

ライセンス: Link先を確認
Jinhuan Wang, Jiafei Shao, Zeyu Wang, Shanqing Yu, Qi Xuan, Xiaoniu Yang, (参考訳) グラフコントラスト学習(GCL)は、自己教師付き学習手法であり、注釈付きデータ不足の問題を解決することができる。 ダウンストリームタスクに好都合なグラフ表現を生成するために、注釈のないグラフの明示的な特徴をマイニングする。 既存のGCL手法の多くは、グラフ拡張戦略や相互情報推定操作の設計に重点を置いている。 グラフ拡大はグラフ摂動による拡張ビューを生成する。 これらのビューは、ローカルに類似した構造を保持し、明示的な特徴を活用する。 しかし、これらの手法はサブグラフに存在する相互作用を考慮していない。 グラフ表現に対する部分構造相互作用の影響を検討するために,サブグラフネットワークに基づくコントラスト学習(SGNCL)と呼ばれる新しいフレームワークを提案する。 SGNCLは、拡張ビューを生成するためにサブグラフネットワーク生成戦略を適用している。 この戦略は、元のグラフをトポロジと属性の両方の特徴を持つエッジからノードへのマッピングネットワークに変換する。 シングルショット拡張ビューは、ノード、ノードエッジ、エッジ間のインタラクションをマイニングする、一階サブグラフネットワークである。 さらに,第2次サブグラフの増大がマイニンググラフ構造相互作用に与える影響についても検討し,第2次サブグラフ情報と第2次サブグラフ情報を融合するコントラスト目的を提案する。 我々はSGNCLを、異なる領域の複数のベンチマークデータセット上で、古典的および最先端のグラフコントラスト学習手法と比較する。 大規模な実験により、SGNCLは教師なしの学習環境において、すべてのデータセット上で、競争力またはより良いパフォーマンス(トップ3)を達成することが示された。 さらに、SGNCLは、最良の方法と比較して、転送学習の6.9\%の平均ゲインを達成している。 最後に、マイニングサブストラクチャー相互作用がグラフの対照的な学習に肯定的な意味を持つことを示す実験も行われた。

Graph contrastive learning (GCL), as a self-supervised learning method, can solve the problem of annotated data scarcity. It mines explicit features in unannotated graphs to generate favorable graph representations for downstream tasks. Most existing GCL methods focus on the design of graph augmentation strategies and mutual information estimation operations. Graph augmentation produces augmented views by graph perturbations. These views preserve a locally similar structure and exploit explicit features. However, these methods have not considered the interaction existing in subgraphs. To explore the impact of substructure interactions on graph representations, we propose a novel framework called subgraph network-based contrastive learning (SGNCL). SGNCL applies a subgraph network generation strategy to produce augmented views. This strategy converts the original graph into an Edge-to-Node mapping network with both topological and attribute features. The single-shot augmented view is a first-order subgraph network that mines the interaction between nodes, node-edge, and edges. In addition, we also investigate the impact of the second-order subgraph augmentation on mining graph structure interactions, and further, propose a contrastive objective that fuses the first-order and second-order subgraph information. We compare SGNCL with classical and state-of-the-art graph contrastive learning methods on multiple benchmark datasets of different domains. Extensive experiments show that SGNCL achieves competitive or better performance (top three) on all datasets in unsupervised learning settings. Furthermore, SGNCL achieves the best average gain of 6.9\% in transfer learning compared to the best method. Finally, experiments also demonstrate that mining substructure interactions have positive implications for graph contrastive learning.
翻訳日:2024-04-02 15:54:17 公開日:2024-03-30
# 集団自然発光における光の量子状態

The quantum state of light in collective spontaneous emission ( http://arxiv.org/abs/2306.11348v2 )

ライセンス: Link先を確認
Offek Tziperman, Gefen Baranes, Alexey Gorlach, Ron Ruimy, Chen Mechel, Michael Faran, Nir Gutman, Andrea Pizzi, Ido Kaminer, (参考訳) 集団自然放出は、複数の量子エミッターが共通の放射モードに崩壊し、増強または抑制される。 ここでは、量子相関を示すエミッタから集合的に放出される光の量子状態を求める。 我々は、放出中に量子相関が失われず、代わりに出力光に転送される条件で明らかにする。 これらの条件下では、エミッターの固有の非線形性は、ゴーテスマン・キタエフ・プレスキルやシュリンガー・キャット状態のような移動単モードパルスの形で所望のフォトニック状態を生成するように調整することができる。 このような予測を容易にするために、我々の研究は、光の放出された量子状態におけるエミッタの位置、損失、相互作用、およびマルコフ力学の役割を捉え、集合的自発放出のマルチモードの性質を明らかにする。 これらの効果は, キャビティQED, 導波管QED, 原子配列など, 様々な物理系に現れる。 本研究は, 連続可変型量子計算, 通信, センシングにおけるボソニック符号のための多光子量子光の生成と操作のための新しい経路を提案する。

Collective spontaneous emission occurs when multiple quantum emitters decay into common radiation modes, resulting in enhanced or suppressed emission. Here, we find the quantum state of light collectively emitted from emitters exhibiting quantum correlations. We unveil under what conditions the quantum correlations are not lost during the emission but are instead transferred to the output light. Under these conditions, the inherent nonlinearity of the emitters can be tailored to create desired photonic states in the form of traveling single-mode pulses, such as Gottesman-Kitaev-Preskill and Schr\"odinger-cat states. To facilitate such predictions, our work reveals the multi-mode nature of collective spontaneous emission, capturing the role of the emitters' positions, losses, interactions, and beyond-Markov dynamics on the emitted quantum state of light. We present manifestations of these effects in different physical systems, with examples in cavity-QED, waveguide-QED, and atomic arrays. Our findings suggest new paths for creating and manipulating multi-photon quantum light for bosonic codes in continuous-variable-based quantum computation, communications, and sensing.
翻訳日:2024-04-02 15:54:17 公開日:2024-03-30
# 入力制約付きMPCの直接最適化アルゴリズム

A direct optimization algorithm for input-constrained MPC ( http://arxiv.org/abs/2306.15079v6 )

ライセンス: Link先を確認
Liang Wu, Richard D. Braatz, (参考訳) 実行時証明書の提供は、マイクロコントローラのようなリアルタイム組み込みシステムにモデル予測制御(MPC)をデプロイする際のプレス要求である。 リアルタイムMPCは、その最悪の実行時間(最大)がクローズドループのサンプリング時間よりも小さいことを理論的に保証する必要がある。 この技術ノートは、入力制約付きMPC問題を考察し、その結果のボックス制約付きQPの構造を利用する。 そこで,本研究では,本手法で実現可能なフルニュートンインテリアポイントアルゴリズムの初期化仮定を,初めて除去する,<textit{ Cost-free} と \textit{data-independent} の初期化戦略を提案する。 提案アルゴリズムの反復数は \textit{only dimension-dependent} (\textit{data-independent})、 \textit{simple-calculated} 、 \textit{exact} (not \textit{worst-case}) であり、$\left\lceil\frac {\log(\frac{2n}{\epsilon})}{-2\log(\frac {\sqrt{2n}}{\sqrt{2n}+\sqrt{2}-1})}\right\rceil \! n$ は問題次元を表し、$\epsilon$ は一定の停止許容度を表す。 これらの特徴により、非線形MPCの実行時間(オンライン線形化スキーム)や適応MPC問題を容易に証明できる。 提案アルゴリズムの実行時認証能力は,オープンループ不安定AFTI-16例を用いて理論的,数値的に検証する。

Providing an execution time certificate is a pressing requirement when deploying Model Predictive Control (MPC) in real-time embedded systems such as microcontrollers. Real-time MPC requires that its worst-case (maximum) execution time must be theoretically guaranteed to be smaller than the sampling time in closed-loop. This technical note considers input-constrained MPC problems and exploits the structure of the resulting box-constrained QPs. Then, we propose a \textit{cost-free} and \textit{data-independent} initialization strategy, which enables us, for the first time, to remove the initialization assumption of feasible full-Newton interior-point algorithms. We prove that the number of iterations of our proposed algorithm is \textit{only dimension-dependent} (\textit{data-independent}), \textit{simple-calculated}, and \textit{exact} (not \textit{worst-case}) with the value $\left\lceil\frac{\log(\frac{2n}{\epsilon})}{-2\log(\frac{\sqrt{2n}}{\sqrt{2n}+\sqrt{2}-1})}\right\rceil \!+ 1$, where $n$ denotes the problem dimension and $\epsilon$ denotes the constant stopping tolerance. These features enable our algorithm to trivially certify the execution time of nonlinear MPC (via online linearized schemes) or adaptive MPC problems. The execution-time-certified capability of our algorithm is theoretically and numerically validated through an open-loop unstable AFTI-16 example.
翻訳日:2024-04-02 15:54:17 公開日:2024-03-30
# スケールアローンはビジョンモデルにおける機械的解釈性を改善しない

Scale Alone Does not Improve Mechanistic Interpretability in Vision Models ( http://arxiv.org/abs/2307.05471v2 )

ライセンス: Link先を確認
Roland S. Zimmermann, Thomas Klein, Wieland Brendel, (参考訳) 最近のAIシステムが広く採用されていることを踏まえ、ニューラルネットワークの内部情報処理を理解することがますます重要になっている。 最近では、ニューラルネットワークをデータセットやモデルサイズの前例のないレベルまで拡張することで、マシンビジョンが顕著に進歩している。 ここでは、この異常なスケールの増加が機械的解釈可能性の分野に肯定的な影響を及ぼすかどうかを問う。 言い換えれば、スケールドニューラルネットワークの内部動作に関する理解も改善されているのか? 心理物理学のパラダイムを用いて、9つのモデルからなる多種多様なスイートの機械的解釈可能性の1つの形態を定量化し、解釈可能性に対するスケーリング効果を見出さない。 具体的には、調査対象の最先端モデルは、ほぼ10年前からGoogLeNetモデルよりも容易に解釈できる。 最新世代のビジョンモデルは、古いアーキテクチャよりも解釈可能ではなさそうで、改善よりもレグレッションを示唆している。 これらの結果は、機械的に解釈できるように設計されたモデルの必要性と、原子レベルでのネットワークの理解を高めるためのより有用な解釈可能性手法の必要性を強調している。 我々は、9つのモデルにわたる767ユニットの精神物理学的評価から130万以上の人間の反応を含むデータセットを公表した。 このデータセットは、人間ベースの解釈可能性評価の代わりに自動化の研究を促進するもので、最終的にはモデルの機械的解釈可能性を直接最適化するために利用することができる。

In light of the recent widespread adoption of AI systems, understanding the internal information processing of neural networks has become increasingly critical. Most recently, machine vision has seen remarkable progress by scaling neural networks to unprecedented levels in dataset and model size. We here ask whether this extraordinary increase in scale also positively impacts the field of mechanistic interpretability. In other words, has our understanding of the inner workings of scaled neural networks improved as well? We use a psychophysical paradigm to quantify one form of mechanistic interpretability for a diverse suite of nine models and find no scaling effect for interpretability - neither for model nor dataset size. Specifically, none of the investigated state-of-the-art models are easier to interpret than the GoogLeNet model from almost a decade ago. Latest-generation vision models appear even less interpretable than older architectures, hinting at a regression rather than improvement, with modern models sacrificing interpretability for accuracy. These results highlight the need for models explicitly designed to be mechanistically interpretable and the need for more helpful interpretability methods to increase our understanding of networks at an atomic level. We release a dataset containing more than 130'000 human responses from our psychophysical evaluation of 767 units across nine models. This dataset facilitates research on automated instead of human-based interpretability evaluations, which can ultimately be leveraged to directly optimize the mechanistic interpretability of models.
翻訳日:2024-04-02 15:54:17 公開日:2024-03-30
# データフリー代替攻撃に対する安定拡散に基づく遅延コード拡張

Latent Code Augmentation Based on Stable Diffusion for Data-free Substitute Attacks ( http://arxiv.org/abs/2307.12872v2 )

ライセンス: Link先を確認
Mingwen Shao, Lingzhuang Meng, Yuanjian Qiao, Lixu Zhang, Wangmeng Zuo, (参考訳) ブラックボックス代替攻撃では対象モデルのトレーニングデータが利用できないため、近年のスキームではGANを用いて代替モデルのトレーニングデータを生成する。 しかしながら、これらのGANベースのスキームは、代替トレーニングプロセス中に各ターゲットモデルに対してジェネレータを再訓練する必要があるため、低トレーニング効率に悩まされる。 これらの制約を克服するために,拡散モデルを用いてデータを生成することを検討するとともに,安定拡散(SD)に基づく新しいデータフリー代替攻撃方式を提案し,代用訓練の効率と精度を向上させる。 SDが生成したデータは高品質であるにもかかわらず、異なる領域の分布を示し、ターゲットモデルに対する正と負のサンプルの大きなバリエーションを示す。 そこで本研究では,対象モデルのデータ分布に整合したデータ生成において,SDを容易にするためのLatent Code Augmentation (LCA)を提案する。 具体的には、推定されたメンバーデータの潜伏符号をLCAで拡張し、SDのガイダンスとして使用する。 LCAのガイダンスにより、SDによって生成されたデータは、対象モデルの識別基準を満たすだけでなく、高い多様性を示す。 このデータを利用することで、より効率的にターゲットモデルによく似た代替モデルを訓練することができる。 大規模な実験により、我々のLCAはより高い攻撃成功率を示し、異なるターゲットモデルに対するGANベースのスキームと比較してクエリ予算を少なくすることを示した。 我々のコードは \url{https://github.com/LzhMeng/LCA} で入手できる。

Since the training data of the target model is not available in the black-box substitute attack, most recent schemes utilize GANs to generate data for training the substitute model. However, these GANs-based schemes suffer from low training efficiency as the generator needs to be retrained for each target model during the substitute training process, as well as low generation quality. To overcome these limitations, we consider utilizing the diffusion model to generate data, and propose a novel data-free substitute attack scheme based on the Stable Diffusion (SD) to improve the efficiency and accuracy of substitute training. Despite the data generated by the SD exhibiting high quality, it presents a different distribution of domains and a large variation of positive and negative samples for the target model. For this problem, we propose Latent Code Augmentation (LCA) to facilitate SD in generating data that aligns with the data distribution of the target model. Specifically, we augment the latent codes of the inferred member data with LCA and use them as guidance for SD. With the guidance of LCA, the data generated by the SD not only meets the discriminative criteria of the target model but also exhibits high diversity. By utilizing this data, it is possible to train the substitute model that closely resembles the target model more efficiently. Extensive experiments demonstrate that our LCA achieves higher attack success rates and requires fewer query budgets compared to GANs-based schemes for different target models. Our codes are available at \url{https://github.com/LzhMeng/LCA}.
翻訳日:2024-04-02 15:54:17 公開日:2024-03-30
# 機械学習のためのトレーニングデータの分布特性の検証

Attesting Distributional Properties of Training Data for Machine Learning ( http://arxiv.org/abs/2308.09552v3 )

ライセンス: Link先を確認
Vasisht Duddu, Anudeep Das, Nora Khayata, Hossein Yalame, Thomas Schneider, N. Asokan, (参考訳) 機械学習(ML)の成功は、その信頼性に対する懸念が高まっている。 いくつかの管轄区域がML規制の枠組みを準備している。 そのような懸念の1つは、モデルトレーニングデータが特定の機密属性に対して望ましい分布特性を持つことである。 例えば、ドラフト規則は、トレーニングデータセットが人口の多様性を反映するなど、特定の分布特性を持つことを示すためにモデルトレーナーが必要であることを示している。 本研究では,証明者(例えばモデルトレーナー)がデータを明らかにすることなく,学習データの適切な分布特性を検証者(例えば顧客)に示すことができる特性証明の概念を提案する。 本稿では,プロパティ推論と暗号機構を組み合わせた効果的なハイブリッド特性証明を提案する。

The success of machine learning (ML) has been accompanied by increased concerns about its trustworthiness. Several jurisdictions are preparing ML regulatory frameworks. One such concern is ensuring that model training data has desirable distributional properties for certain sensitive attributes. For example, draft regulations indicate that model trainers are required to show that training datasets have specific distributional properties, such as reflecting diversity of the population. We propose the notion of property attestation allowing a prover (e.g., model trainer) to demonstrate relevant distributional properties of training data to a verifier (e.g., a customer) without revealing the data. We present an effective hybrid property attestation combining property inference with cryptographic mechanisms.
翻訳日:2024-04-02 15:44:31 公開日:2024-03-30
# 大規模生成視覚言語モデルの構成性の検討

An Examination of the Compositionality of Large Generative Vision-Language Models ( http://arxiv.org/abs/2308.10509v2 )

ライセンス: Link先を確認
Teli Ma, Rong Li, Junwei Liang, (参考訳) LLM(Large Language Models)の成功により、GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。 しかし, マルチモーダル構成推論におけるGVLMの性能は未解明のままである。 本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。 我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。 このバイアスにより、VisualGPTScoreはGVLMを評価するのに不十分な指標となる。 この問題に対処するために、まずLLMを活用してそのようなバイアスを定量化するSyntaxBias Scoreを導入する。 その後、構文的正しさに対する固有の傾きに対するGVLMの堅牢性を評価するために、挑戦的な新しいタスクが追加される。 バイアス緩和されたデータセットと新しいタスクを用いて、SyntActically DE-biasedベンチマーク(SADE)という新しいベンチマークを提案する。 我々の研究は、GVLMの構成性に関するバイアスのないベンチマークを提供し、将来的な研究を促進する(コードとデータセットはhttps://github.com/TeleeMa/SADE.comで入手できる)。

With the success of Large Language Models (LLMs), many Generative Vision-Language Models (GVLMs) have been constructed via multimodal instruction tuning. However, the performance of GVLMs in multimodal compositional reasoning remains under-explored. In this paper, we examine both the evaluation metrics (VisualGPTScore, etc.) and current benchmarks for evaluating the compositionality of GVLMs. We identify the syntactical bias in current benchmarks, which is exploited by the linguistic capability of GVLMs. The bias renders VisualGPTScore an insufficient metric for assessing GVLMs. To combat this, we first introduce a SyntaxBias Score, leveraging LLMs to quantify such bias for mitigation. A challenging new task is subsequently added to evaluate the robustness of GVLMs against inherent inclination toward syntactical correctness. Using the bias-mitigated datasets and the new task, we propose a novel benchmark, namely SyntActically DE-biased benchmark (SADE). Our study provides an unbiased benchmark for the compositionality of GVLMs, facilitating future research in this direction (Code and dataset are available at https://github.com/TeleeMa/SADE).
翻訳日:2024-04-02 15:44:31 公開日:2024-03-30
# Gorini-Kossakowski-Sudarshan-Lindblad方程式の定常状態の特異性:簡単な証明

Uniqueness of steady states of Gorini-Kossakowski-Sudarshan-Lindblad equations: a simple proof ( http://arxiv.org/abs/2309.00335v4 )

ライセンス: Link先を確認
Hironobu Yoshida, (参考訳) ゴリーニ-コサコフスキー-スダルシャン-リンドブラッド方程式の非平衡定常状態の特異性に対する十分条件の簡単な証明を示す。 本稿では, 逆場イジングモデル, XYZモデル, 強結合モデルなどを用いて, 十分条件の適用例を示す。

We present a simple proof of a sufficient condition for the uniqueness of non-equilibrium steady states of Gorini-Kossakowski-Sudarshan-Lindblad equations. We demonstrate the applications of the sufficient condition using examples of the transverse-field Ising model, the XYZ model, and the tight-binding model with dephasing.
翻訳日:2024-04-02 15:44:31 公開日:2024-03-30
# 答えは信用できますか? ビデオで答える質問

Can I Trust Your Answer? Visually Grounded Video Question Answering ( http://arxiv.org/abs/2309.01327v2 )

ライセンス: Link先を確認
Junbin Xiao, Angela Yao, Yicong Li, Tat Seng Chua, (参考訳) 本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。 具体的には、視覚言語モデル(VLM)に質問に答え、同時に視覚的証拠を提供するよう強制することで、これらの手法の予測が、言語や無関係な視覚的文脈からの素早い相関よりも、実際に関連ビデオコンテンツに固定されているかを確認することを試みる。 そこで, NExT-GQA を 10.5$K の時間的接地(あるいは位置)ラベルで拡張した NExT-GQA を構築する。 NExT-GQAでは、最先端のVLMのシリーズを精査する。 ポストホックアテンション分析により,これらのモデルでは,QA性能が強いにもかかわらず,回答の裏付けが極めて弱いことが判明した。 これは、信頼性のある予測を行う際の現在のVLMの制限を明らかにする。 本稿では,ガウスマスク最適化とクロスモーダル学習による接地型QA手法をさらに探求し,提案する。 異なるバックボーンを用いた実験では、この接地機構が接地とQAの両方を改善することが示されている。 これらの取り組みにより,VQAシステムにおける信頼性の高いVLMの実現を目指す。 データセットとコードはhttps://github.com/doc-doc/NExT-GQA.comで公開されています。

We study visually grounded VideoQA in response to the emerging trends of utilizing pretraining techniques for video-language understanding. Specifically, by forcing vision-language models (VLMs) to answer questions and simultaneously provide visual evidence, we seek to ascertain the extent to which the predictions of such techniques are genuinely anchored in relevant video content, versus spurious correlations from language or irrelevant visual context. Towards this, we construct NExT-GQA -- an extension of NExT-QA with 10.5$K$ temporal grounding (or location) labels tied to the original QA pairs. With NExT-GQA, we scrutinize a series of state-of-the-art VLMs. Through post-hoc attention analysis, we find that these models are extremely weak in substantiating the answers despite their strong QA performance. This exposes the limitation of current VLMs in making reliable predictions. As a remedy, we further explore and propose a grounded-QA method via Gaussian mask optimization and cross-modal learning. Experiments with different backbones demonstrate that this grounding mechanism improves both grounding and QA. With these efforts, we aim to push towards trustworthy VLMs in VQA systems. Our dataset and code are available at https://github.com/doc-doc/NExT-GQA.
翻訳日:2024-04-02 15:44:31 公開日:2024-03-30
# MoEController:Mixture-of-Expert Controllerによる命令ベースの任意画像操作

MoEController: Instruction-based Arbitrary Image Manipulation with Mixture-of-Expert Controllers ( http://arxiv.org/abs/2309.04372v2 )

ライセンス: Link先を確認
Sijia Li, Chen Chen, Haonan Lu, (参考訳) 拡散モデルに基づくテキスト誘導画像生成は、最近驚くべき進歩を遂げ、オープンドメイン画像操作タスクにおいて素晴らしい結果をもたらしている。 しかし、現在、画像操作タスクの複雑さと多様性のため、グローバルおよびローカル画像編集の完全なゼロショット機能を持つモデルはほとんどない。 本研究では,拡散モデルのテキスト誘導能力と異なる種類の人間の指示とを一致させるため,実験用混合制御器(MOE)を用いた手法を提案し,そのモデルが自然言語による様々なオープンドメイン画像操作タスクを扱えるようにした。 まず、大規模言語モデル(ChatGPT)と条件付き画像合成モデル(ControlNet)を用いて、命令ベースのローカル画像編集データセットに加えて、多数のグローバル画像転送データセットを生成する。 そして,MOE技術と大規模データセットを用いたタスク固有適応トレーニングを用いて,条件拡散モデルにより,画像のグローバルかつローカルな編集が可能となる。 広範にわたる実験により,オープンドメイン画像や任意のヒューマンインストラクションを扱う場合,様々な画像操作タスクに対して驚くほど優れた性能が得られた。 プロジェクトページを参照してください。 [https://oppo-mente-lab.github.io/moe_controller/]

Diffusion-model-based text-guided image generation has recently made astounding progress, producing fascinating results in open-domain image manipulation tasks. Few models, however, currently have complete zero-shot capabilities for both global and local image editing due to the complexity and diversity of image manipulation tasks. In this work, we propose a method with a mixture-of-expert (MOE) controllers to align the text-guided capacity of diffusion models with different kinds of human instructions, enabling our model to handle various open-domain image manipulation tasks with natural language instructions. First, we use large language models (ChatGPT) and conditional image synthesis models (ControlNet) to generate a large number of global image transfer dataset in addition to the instruction-based local image editing dataset. Then, using an MOE technique and task-specific adaptation training on a large-scale dataset, our conditional diffusion model can edit images globally and locally. Extensive experiments demonstrate that our approach performs surprisingly well on various image manipulation tasks when dealing with open-domain images and arbitrary human instructions. Please refer to our project page: [https://oppo-mente-lab.github.io/moe_controller/]
翻訳日:2024-04-02 15:44:31 公開日:2024-03-30
# 多言語LLMは文化的に多言語であるか? : 多文化のプロバーブと発言についての検討

Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings ( http://arxiv.org/abs/2309.08591v2 )

ライセンス: Link先を確認
Chen Cecilia Liu, Fajri Koto, Timothy Baldwin, Iryna Gurevych, (参考訳) 大規模言語モデル(LLM)は、質問への回答や推論のタスクに非常に適しているが、状況的文脈での推論では、人間の期待は関連する文化的共通基盤によって異なる。 言語は多様な文化と結びついているので、LLMは文化的に異なる推論者でもあるべきです。 本稿では,多言語多言語 LLM (mLLMs) が,会話の文脈における証明や言い回しを推論する能力について検討する。 実験の結果,(1)mLLMの「知識」が限定されていること,(2)mLLMの「知識」が会話の文脈内で理解できないこと,(2)mLLMが具体的証明や言説の推論に苦慮していること,(3)mLLMが正しい回答を選択する代わりに間違った回答を選択すること,(3)他の言語から翻訳された言説を推論する場合に,mLLMの「文化ギャップ」が存在することがわかった。 評価データセットMAPS (MulticultrAl Proverbs and Sayings) を構築・リリースし、6つの異なる言語に対する会話コンテキストによる理解を実証する。

Large language models (LLMs) are highly adept at question answering and reasoning tasks, but when reasoning in a situational context, human expectations vary depending on the relevant cultural common ground. As languages are associated with diverse cultures, LLMs should also be culturally-diverse reasoners. In this paper, we study the ability of a wide range of state-of-the-art multilingual LLMs (mLLMs) to reason with proverbs and sayings in a conversational context. Our experiments reveal that: (1) mLLMs "know" limited proverbs and memorizing proverbs does not mean understanding them within a conversational context; (2) mLLMs struggle to reason with figurative proverbs and sayings, and when asked to select the wrong answer (instead of asking it to select the correct answer); and (3) there is a "culture gap" in mLLMs when reasoning about proverbs and sayings translated from other languages. We construct and release our evaluation dataset MAPS (MulticultrAl Proverbs and Sayings) for proverb understanding with conversational context for six different languages.
翻訳日:2024-04-02 15:34:46 公開日:2024-03-30
# 言語教育のための軌道安定学習システム

Learning Orbitally Stable Systems for Diagrammatically Teaching ( http://arxiv.org/abs/2309.10298v2 )

ライセンス: Link先を確認
Weiming Zhi, Tianyi Zhang, Matthew Johnson-Roberson, (参考訳) ダイアグラム教育はロボットが新しいスキルを身につけるためのパラダイムであり、ユーザーはロボットの動きを形作るシーンの画像に2Dスケッチを提供する。 本研究では,ロボットに表面への接近を指示し,その上でサイクリック動作を追従する問題に取り組む。ロボットのカメラからの画像に対して,ユーザが提供する1つのスケッチによって,動きのサイクルを任意に指定することができる。 そこで我々は,SDDT(Stable Diffeomorphic Diagrammatic Teaching)フレームワークを寄贈した。 SDDTは、ロボットの動きを、ユーザが提供した単一の図式スケッチに基づいて安定化することを学ぶ、軌道的漸近安定(O.A.S.)力学系としてモデル化する。 これは、既知の O.A.S. 系に微分可能かつ可微分的関数である \emph{diffeomorphism} を適用することによって達成される。 パラメータ化された微分同相は、モデル化されたシステムの極限サイクルとスケッチの間のハウスドルフ距離に対して最適化され、所望のロボット運動を生成する。 最適化システムの挙動に関する新しい理論的知見を提供するとともに、シミュレーションと6-DOFマニピュレータを装着した四重極上でSDDTを実験的に評価する。 その結果,複雑な循環運動パターンを高い精度で図式的に教えることができることがわかった。

Diagrammatic Teaching is a paradigm for robots to acquire novel skills, whereby the user provides 2D sketches over images of the scene to shape the robot's motion. In this work, we tackle the problem of teaching a robot to approach a surface and then follow cyclic motion on it, where the cycle of the motion can be arbitrarily specified by a single user-provided sketch over an image from the robot's camera. Accordingly, we contribute the Stable Diffeomorphic Diagrammatic Teaching (SDDT) framework. SDDT models the robot's motion as an Orbitally Asymptotically Stable (O.A.S.) dynamical system that learns to stablize based on a single diagrammatic sketch provided by the user. This is achieved by applying a \emph{diffeomorphism}, i.e. a differentiable and invertible function, to morph a known O.A.S. system. The parameterised diffeomorphism is then optimised with respect to the Hausdorff distance between the limit cycle of our modelled system and the sketch, to produce the desired robot motion. We provide novel theoretical insight into the behaviour of the optimised system and also empirically evaluate SDDT, both in simulation and on a quadruped with a mounted 6-DOF manipulator. Results show that we can diagrammatically teach complex cyclic motion patterns with a high degree of accuracy.
翻訳日:2024-04-02 15:34:46 公開日:2024-03-30
# NTO3D:Segment Anythingを用いたニューラルターゲットオブジェクト3D再構成

NTO3D: Neural Target Object 3D Reconstruction with Segment Anything ( http://arxiv.org/abs/2309.12790v2 )

ライセンス: Link先を確認
Xiaobao Wei, Renrui Zhang, Jiarui Wu, Jiaming Liu, Ming Lu, Yandong Guo, Shanghang Zhang, (参考訳) マルチビュー画像からのニューラル3D再構成は,最近,コミュニティの注目を集めている。 既存の方法は、通常、シーン全体のニューラルネットワークを学習するが、ユーザによって示されるターゲットオブジェクトの再構築方法はまだ未検討である。 SAM(Segment Anything Model)が任意の2次元画像のセグメンテーションに有効であることを考慮し、我々はNTO3Dという新しい高品質なニューラルターゲットオブジェクト3D(NTO3D)再構成法を提案し、ニューラルフィールドとSAMの両方の利点を生かした。 まず、SAMの多視点2Dセグメンテーションマスクを統一された3D占有領域に引き上げるための新しい戦略を提案する。 3D占有領域は2次元空間に投影され、SAMの新しいプロンプトを生成する。 このプロセスは、対象のオブジェクトをシーンから分離するために収束するまで反復的です。 その後,SAMエンコーダの2次元特徴を3次元特徴場に引き上げ,対象物体の再現性を向上させる。 NTO3DはSAMの2Dマスクと特徴を3Dニューラルフィールドに持ち上げ、高品質なニューラルターゲットオブジェクト3D再構成を行う。 提案手法の利点を実証するため,いくつかのベンチマークデータセットの詳細な実験を行った。 コードは、https://github.com/ucwxb/NTO3D.comで入手できる。

Neural 3D reconstruction from multi-view images has recently attracted increasing attention from the community. Existing methods normally learn a neural field for the whole scene, while it is still under-explored how to reconstruct a target object indicated by users. Considering the Segment Anything Model (SAM) has shown effectiveness in segmenting any 2D images, in this paper, we propose NTO3D, a novel high-quality Neural Target Object 3D (NTO3D) reconstruction method, which leverages the benefits of both neural field and SAM. We first propose a novel strategy to lift the multi-view 2D segmentation masks of SAM into a unified 3D occupancy field. The 3D occupancy field is then projected into 2D space and generates the new prompts for SAM. This process is iterative until convergence to separate the target object from the scene. After this, we then lift the 2D features of the SAM encoder into a 3D feature field in order to improve the reconstruction quality of the target object. NTO3D lifts the 2D masks and features of SAM into the 3D neural field for high-quality neural target object 3D reconstruction. We conduct detailed experiments on several benchmark datasets to demonstrate the advantages of our method. The code will be available at: https://github.com/ucwxb/NTO3D.
翻訳日:2024-04-02 15:34:46 公開日:2024-03-30
# 一貫性軌道モデル:拡散の確率フロー ODE 軌道の学習

Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion ( http://arxiv.org/abs/2310.02279v3 )

ライセンス: Link先を確認
Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yutong He, Yuki Mitsufuji, Stefano Ermon, (参考訳) Consistency Models (CM) (Song et al , 2023) はサンプル品質のコストでスコアベース拡散モデルサンプリングを加速するが、速度のトレードオフには自然な方法がない。 この制限に対処するために,CMモデルとスコアベースモデルを含む一般化であるCTM(Consistency Trajectory Model)を提案する。 CTMは、単一の前方通過 -- 出力スコア(すなわちログ密度の勾配)をトレーニングし、拡散過程における確率フロー正規微分方程式(ODE)に沿って、任意の初期時間と最終時間の間の非制限トラバースを可能にする。 CTM は,CIFAR-10 (FID 1.73) と ImageNet at 64x64 resolution (FID 1.92) の単段拡散モデルサンプリングのための新しい最先端 FID を実現する。 CTMはまた、ODEソリューションの軌跡に沿って長いジャンプを含む決定論的および確率的な新しいサンプリングスキームのファミリーを可能にする。 計算予算が増加するにつれて、CMで見られる劣化を避けることで、サンプル品質を継続的に改善する。 さらに、CMとは異なり、CTMのスコア関数へのアクセスは、拡散コミュニティから確立された制御可能/条件生成手法の採用を合理化することができる。 このアクセスはまた、可能性の計算を可能にする。 コードはhttps://github.com/sony/ctm.comで入手できる。

Consistency Models (CM) (Song et al., 2023) accelerate score-based diffusion model sampling at the cost of sample quality but lack a natural way to trade-off quality for speed. To address this limitation, we propose Consistency Trajectory Model (CTM), a generalization encompassing CM and score-based models as special cases. CTM trains a single neural network that can -- in a single forward pass -- output scores (i.e., gradients of log-density) and enables unrestricted traversal between any initial and final time along the Probability Flow Ordinary Differential Equation (ODE) in a diffusion process. CTM enables the efficient combination of adversarial training and denoising score matching loss to enhance performance and achieves new state-of-the-art FIDs for single-step diffusion model sampling on CIFAR-10 (FID 1.73) and ImageNet at 64x64 resolution (FID 1.92). CTM also enables a new family of sampling schemes, both deterministic and stochastic, involving long jumps along the ODE solution trajectories. It consistently improves sample quality as computational budgets increase, avoiding the degradation seen in CM. Furthermore, unlike CM, CTM's access to the score function can streamline the adoption of established controllable/conditional generation methods from the diffusion community. This access also enables the computation of likelihood. The code is available at https://github.com/sony/ctm.
翻訳日:2024-04-02 15:34:46 公開日:2024-03-30
# サンプリング・最適化・ブースティングのためのユニバーサル伊藤鎖の伊藤拡散近似

Ito Diffusion Approximation of Universal Ito Chains for Sampling, Optimization and Boosting ( http://arxiv.org/abs/2310.06081v2 )

ライセンス: Link先を確認
Aleksei Ustimenko, Aleksandr Beznosikov, (参考訳) 本研究では、確率微分方程式のオイラー・マルヤマ離散化に類似したマルコフ連鎖のより一般で幅広いクラス、伊藤鎖を考える。 私たちが研究する連鎖は理論解析のための統一的な枠組みである。 ほぼ任意の等方性ノイズと状態依存ノイズが伴い、ほとんどの関連論文のように通常のノイズと状態非依存ノイズが伴う。 さらに,我々の鎖では, ドリフトと拡散係数はStochastic Gradient Langevin Dynamics, sample, Stochastic Gradient Descent, Stochastic Gradient Boostingなどの幅広い応用をカバーするために不完全である。 我々は、伊藤鎖の法則と対応する微分方程式の間の$W_{2}$-距離の有界性を証明する。 これらの結果は、既知の見積もりの多くを改善またはカバーする。 そして、ある特定のケースでは、私たちの分析が初めてです。

In this work, we consider rather general and broad class of Markov chains, Ito chains, that look like Euler-Maryama discretization of some Stochastic Differential Equation. The chain we study is a unified framework for theoretical analysis. It comes with almost arbitrary isotropic and state-dependent noise instead of normal and state-independent one as in most related papers. Moreover, in our chain the drift and diffusion coefficient can be inexact in order to cover wide range of applications as Stochastic Gradient Langevin Dynamics, sampling, Stochastic Gradient Descent or Stochastic Gradient Boosting. We prove the bound in $W_{2}$-distance between the laws of our Ito chain and corresponding differential equation. These results improve or cover most of the known estimates. And for some particular cases, our analysis is the first.
翻訳日:2024-04-02 15:34:46 公開日:2024-03-30
# 大規模言語モデルに対する複合的バックドア攻撃

Composite Backdoor Attacks Against Large Language Models ( http://arxiv.org/abs/2310.07676v2 )

ライセンス: Link先を確認
Hai Huang, Zhengyu Zhao, Michael Backes, Yun Shen, Yang Zhang, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにおける従来の手法よりも優れた性能を示しており、多くの研究やサービスの基盤モデルとして機能することが多い。 しかし、信頼できるサードパーティのLLMは、下流タスクの脆弱性を隠蔽的に導入する可能性がある。 本稿では,バックドアアタックのレンズによるLSMの脆弱性について検討する。 LLMに対する既存のバックドア攻撃とは異なり、当社は異なるプロンプトコンポーネントで複数のトリガーキーを散乱させる。 このような複合バックドア攻撃(CBA)は、同じ複数のトリガーキーを単一のコンポーネントに埋め込むよりもステルス性が高い。 CBAは、すべてのトリガーキーが現れるときのみ、バックドアがアクティベートされることを保証する。 CBAは自然言語処理(NLP)とマルチモーダルタスクの両方に有効であることを示す。 例えば、Emotionデータセット上のLLaMA-7Bモデルに対して$3\%の有毒サンプルを使用すれば、False Triggered Rate (FTR)が$2.06\%以下で100\%のアタック成功率(ASR)が達成され、モデルの精度が低下します。 本研究は, LLMの信頼性向上に向けたセキュリティ研究の必要性を強調するものである。

Large language models (LLMs) have demonstrated superior performance compared to previous methods on various tasks, and often serve as the foundation models for many researches and services. However, the untrustworthy third-party LLMs may covertly introduce vulnerabilities for downstream tasks. In this paper, we explore the vulnerability of LLMs through the lens of backdoor attacks. Different from existing backdoor attacks against LLMs, ours scatters multiple trigger keys in different prompt components. Such a Composite Backdoor Attack (CBA) is shown to be stealthier than implanting the same multiple trigger keys in only a single component. CBA ensures that the backdoor is activated only when all trigger keys appear. Our experiments demonstrate that CBA is effective in both natural language processing (NLP) and multimodal tasks. For instance, with $3\%$ poisoning samples against the LLaMA-7B model on the Emotion dataset, our attack achieves a $100\%$ Attack Success Rate (ASR) with a False Triggered Rate (FTR) below $2.06\%$ and negligible model accuracy degradation. Our work highlights the necessity of increased security research on the trustworthiness of foundation LLMs.
翻訳日:2024-04-02 15:25:00 公開日:2024-03-30
# LangNav: ナビゲーションの知覚表現としての言語

LangNav: Language as a Perceptual Representation for Navigation ( http://arxiv.org/abs/2310.07889v2 )

ライセンス: Link先を確認
Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim, (参考訳) 視覚・言語ナビゲーション(VLN)の知覚表現としての言語の利用について,低データ設定に焦点をあてて検討する。 提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。 次に、トレーニング済みの言語モデルを微調整し、現在のビューと軌跡履歴に基づいてアクションを選択する。 事前学習された視覚モデルから連続的な視覚的特徴を直接扱えるように事前学習された言語モデルを適用する標準設定とは対照的に、我々のアプローチは知覚表現として(離散的な)言語を使用する。 R2R VLNベンチマークにおける言語ベースのナビゲーション(LangNav)アプローチのユースケースとして,より小さな言語モデル(GPT-4)から合成トラジェクトリを生成すること,シミュレーション環境(ALFRED)から学習したポリシを他の(より現実的な)環境(R2R)に転送すること,VLNの視覚的および言語的表現を組み合わせること,などがあげられる。 本手法は,数個の専門的軌跡(10~100)しか利用できない設定において,視覚的特徴に依存するベースラインを改善し,ナビゲーションの知覚表現としての言語の可能性を示す。

We explore the use of language as a perceptual representation for vision-and-language navigation (VLN), with a focus on low-data settings. Our approach uses off-the-shelf vision systems for image captioning and object detection to convert an agent's egocentric panoramic view at each time step into natural language descriptions. We then finetune a pretrained language model to select an action, based on the current view and the trajectory history, that would best fulfill the navigation instructions. In contrast to the standard setup which adapts a pretrained language model to work directly with continuous visual features from pretrained vision models, our approach instead uses (discrete) language as the perceptual representation. We explore several use cases of our language-based navigation (LangNav) approach on the R2R VLN benchmark: generating synthetic trajectories from a prompted language model (GPT-4) with which to finetune a smaller language model; domain transfer where we transfer a policy learned on one simulated environment (ALFRED) to another (more realistic) environment (R2R); and combining both vision- and language-based representations for VLN. Our approach is found to improve upon baselines that rely on visual features in settings where only a few expert trajectories (10-100) are available, demonstrating the potential of language as a perceptual representation for navigation.
翻訳日:2024-04-02 15:25:00 公開日:2024-03-30
# 論理的推論のためのタスク構造変化を伴う大規模言語モデルのロバスト性の評価と向上

Assessing and Enhancing the Robustness of Large Language Models with Task Structure Variations for Logical Reasoning ( http://arxiv.org/abs/2310.09430v4 )

ライセンス: Link先を確認
Qiming Bao, Gael Gendron, Alex Yuxuan Peng, Wanjun Zhong, Neset Tan, Yang Chen, Michael Witbrock, Jiamou Liu, (参考訳) LLaMA、Alpaca、Vicuna、GPT-3.5、GPT-4などの大規模言語モデル(LLM)は、様々な自然言語処理タスクにおけるAIシステムの性能を人間のようなレベルに向上させた。 しかし、論理的推論を行う際の一般化と堅牢性は十分に評価されていない。 この能力を総合的に評価するため、「ReClor-plus」、「LogiQA-plus」、「LogiQAv2-plus」という3つの新しい論理推論データセットを開発した。 それぞれに対して、ランダムにシャッフルされた選択肢を持つ部分集合と、正しい選択肢を持つ部分集合を「他の選択肢の1つが正しい」に置き換える部分集合と、シャッフルと置換の組み合わせを持つ部分集合を生成する。 これらのデータセットの実験は、これらの単純な拡張がモデルの性能を著しく妨げていることを示している。 オリジナルの公開データセットのパフォーマンスは高いが,新たに構築されたデータセットでは,すべてのモデルのパフォーマンスが低いことが判明した。 また、トレーニングセットにタスクのバリエーションを導入することで、オリジナルのデータセットと開発したデータセットの両方において、モデルのパフォーマンスが著しく向上することを示した。 最後に,分別モデルと生成モデルの両方において,微調整と促進のための論理駆動型データ拡張の適用により一般化が促進され,論理的推論を含むタスクに対するロバスト性向上の道筋がもたらされることを示す。 ソースコードとデータはhttps://github.com/Strong-AI-Lab/Logical-and-reasoning.comで公開されている。

Large language models (LLMs), such as LLaMA, Alpaca, Vicuna, GPT-3.5 and GPT-4, have advanced the performance of AI systems on various natural language processing tasks to human-like levels. However, their generalisation and robustness when performing logical reasoning has not been sufficiently assessed. To comprehensively evaluate this ability, we develop three new logical reasoning datasets named "ReClor-plus", "LogiQA-plus" and "LogiQAv2-plus" that extend standard logical reasoning datasets to evaluate the robustness of the LLM's reasoning. For each, we create three subsets: the first with randomly shuffled options, the second with the correct choices replaced by "none of the other options is correct", and the third with a combination of shuffling and substitution. Experiments on these datasets show that these simple augmentations greatly hinder the models' performance. Despite their high performance on the original publicly available datasets, we find that all models perform poorly on these newly constructed datasets. We also demonstrate that introducing task variations into the training set can markedly improve the model's performance on both the original and our developed datasets. Finally, we show that applying logic-driven data augmentation for fine-tuning and prompting can enhance generalisation in both discriminative and generative models, offering a path to improving their robustness for tasks involving logical reasoning. Source code and data are made publicly available at https://github.com/Strong-AI-Lab/Logical-and-abstract-reasoning.
翻訳日:2024-04-02 15:25:00 公開日:2024-03-30
# 頑健なニューラル・オードに対する極小最適制御法

A minimax optimal control approach for robust neural ODEs ( http://arxiv.org/abs/2310.17584v3 )

ライセンス: Link先を確認
Cristina Cipriani, Alessandro Scagliotti, Tobias Wöhrer, (参考訳) 本稿では,頑健な制御の観点から,ニューラルなODEの対角的訓練について述べる。 これは経験的リスク最小化による古典的な訓練の代替であり、入力摂動に対する信頼性の高い結果の強制に広く用いられている。 ニューラルネットワークは、深層ニューラルネットワークを制御システムの離散化として解釈し、制御理論から強力なツールを解き放ち、機械学習の開発と理解を可能にする。 この特定の場合において、摂動データを用いた対角トレーニングを極小最適制御問題として定式化し、ポントリャーギンの最大原理の形で一階最適条件を導出する。 我々は、低次元の分類タスクでテストする代替の重み付け手法に導く、頑健なトレーニングの新たな解釈を提供する。

In this paper, we address the adversarial training of neural ODEs from a robust control perspective. This is an alternative to the classical training via empirical risk minimization, and it is widely used to enforce reliable outcomes for input perturbations. Neural ODEs allow the interpretation of deep neural networks as discretizations of control systems, unlocking powerful tools from control theory for the development and the understanding of machine learning. In this specific case, we formulate the adversarial training with perturbed data as a minimax optimal control problem, for which we derive first order optimality conditions in the form of Pontryagin's Maximum Principle. We provide a novel interpretation of robust training leading to an alternative weighted technique, which we test on a low-dimensional classification task.
翻訳日:2024-04-02 15:25:00 公開日:2024-03-30
# 重圧リワードを用いたロバストオフライン強化学習

Robust Offline Reinforcement learning with Heavy-Tailed Rewards ( http://arxiv.org/abs/2310.18715v2 )

ライセンス: Link先を確認
Jin Zhu, Runzhe Wan, Zhengling Qi, Shikai Luo, Chengchun Shi, (参考訳) 本論文は,実世界の応用において一般的である重み付き報酬を伴うシナリオにおいて,オフライン強化学習(RL)の堅牢性を高めるための試みである。 本稿では,2つのアルゴリズムフレームワーク ROAM と ROOM を提案し,ロバストなオフポリシー評価とオフラインポリシー最適化(OPO)を提案する。 我々のフレームワークの中心は、平均値の中央値法をオフラインRLで戦略的に組み込むことであり、値関数推定器の明確な不確実性推定を可能にする。 これは、OPOにおける悲観主義の原則に固執するだけでなく、重厚な報酬も十分に管理している。 理論的な結果と広範な実験により、当社の2つのフレームワークは、ログデータセット上の既存の手法よりも優れていることが示されている。 提案の実装はhttps://github.com/Mamba413/ROOMで公開されている。

This paper endeavors to augment the robustness of offline reinforcement learning (RL) in scenarios laden with heavy-tailed rewards, a prevalent circumstance in real-world applications. We propose two algorithmic frameworks, ROAM and ROOM, for robust off-policy evaluation and offline policy optimization (OPO), respectively. Central to our frameworks is the strategic incorporation of the median-of-means method with offline RL, enabling straightforward uncertainty estimation for the value function estimator. This not only adheres to the principle of pessimism in OPO but also adeptly manages heavy-tailed rewards. Theoretical results and extensive experiments demonstrate that our two frameworks outperform existing methods on the logged dataset exhibits heavy-tailed reward distributions. The implementation of the proposal is available at https://github.com/Mamba413/ROOM.
翻訳日:2024-04-02 15:25:00 公開日:2024-03-30
# 実用性に基づく欠点リスクの最適化--非漸近的視点から

Optimization of utility-based shortfall risk: A non-asymptotic viewpoint ( http://arxiv.org/abs/2310.18743v2 )

ライセンス: Link先を確認
Sumedh Gupte, Prashanth L. A., Sanjay P. Bhat, (参考訳) 本稿では,金融のリスク指標であるユーティリティ・ベース・ショートフォール・リスク(UBSR)の推定と最適化の問題点について考察する。 UBSR推定の文脈では、UBSRの古典的サンプル平均近似(SAA)の平均二乗誤差に基づく非漸近境界を導出する。 次に、UBSR最適化の文脈において、スムーズなパラメータ化の下で、UBSR勾配の式を導出する。 この表現は、UBSRを含む期待の比率である。 数値計算には SAA と UBSR 勾配式では分母を用いてバイアス勾配推定器に到達する。 推定誤差の非漸近的境界を導出し、勾配推定器が漸近的に偏りがないことを示す。 上述の勾配推定器をUBSR最適化のための確率勾配(SG)アルゴリズムに組み込む。 最後に、UBSR最適化のためのSGアルゴリズムの収束率を定量化する非漸近境界を導出する。

We consider the problems of estimation and optimization of utility-based shortfall risk (UBSR), which is a popular risk measure in finance. In the context of UBSR estimation, we derive a non-asymptotic bound on the mean-squared error of the classical sample average approximation (SAA) of UBSR. Next, in the context of UBSR optimization, we derive an expression for the UBSR gradient under a smooth parameterization. This expression is a ratio of expectations, both of which involve the UBSR. We use SAA for the numerator as well as denominator in the UBSR gradient expression to arrive at a biased gradient estimator. We derive non-asymptotic bounds on the estimation error, which show that our gradient estimator is asymptotically unbiased. We incorporate the aforementioned gradient estimator into a stochastic gradient (SG) algorithm for UBSR optimization. Finally, we derive non-asymptotic bounds that quantify the rate of convergence of our SG algorithm for UBSR optimization.
翻訳日:2024-04-02 15:15:12 公開日:2024-03-30
# LLMとファインタニング:ヘイトスピーチ検出のためのクロスドメイン性能のベンチマーク

LLMs and Finetuning: Benchmarking cross-domain performance for hate speech detection ( http://arxiv.org/abs/2310.18964v2 )

ライセンス: Link先を確認
Ahmad Nasir, Aadish Sharma, Kokil Jaidka, (参考訳) オンラインコミュニケーションの進化する状況において、ヘイトスピーチの検出は、デジタルプラットフォームの多様性によってさらに複雑化され、依然として深刻な課題である。 本研究では,ヘイトスピーチの同定における事前学習および微調整大言語モデル(LLM)の有効性と適応性について検討し,(1)微調整および訓練パラメータに依存するモデル性能の程度について検討した。 モデルがクロスドメインヘイトスピーチ検出にどの程度一般化されるか? および(3)一般化ポテンシャルに影響を与えるデータセットやモデルの特徴は何か。 この実験は、LLMが事前訓練なしでも最先端技術に対して大きな優位性を持っていることを示している。 1) LLaMA, Vicunaを含む36のドメイン内分類器と, さまざまなプラットフォームやディスカッションフォーラムにまたがる9つの公開データセットの事前学習および微調整状態の変動を分析した。 2) に答えるために, 与えられたエンドドメインデータセットに対して, 288個のドメイン外分類器の性能を評価した。 (3)に答えると、通常の最小二乗分析は、より詳細なヘイトスピーチラベルを用いたトレーニングの利点は、より小さなトレーニングデータセットでは大きいが、データセットサイズの増加によって洗い流されることを示している。 我々は、ヘイトスピーチ検出の未来をビジョンとして、ドメイン間の一般化可能性と適切なベンチマークプラクティスを強調した。

In the evolving landscape of online communication, hate speech detection remains a formidable challenge, further compounded by the diversity of digital platforms. This study investigates the effectiveness and adaptability of pre-trained and fine-tuned Large Language Models (LLMs) in identifying hate speech, to address two central questions: (1) To what extent does the model performance depend on the fine-tuning and training parameters?, (2) To what extent do models generalize to cross-domain hate speech detection? and (3) What are the specific features of the datasets or models that influence the generalization potential? The experiment shows that LLMs offer a huge advantage over the state-of-the-art even without pretraining. To answer (1) we analyze 36 in-domain classifiers comprising LLaMA, Vicuna, and their variations in pre-trained and fine-tuned states across nine publicly available datasets that span a wide range of platforms and discussion forums. To answer (2), we assessed the performance of 288 out-of-domain classifiers for a given end-domain dataset. In answer to (3), ordinary least squares analyses suggest that the advantage of training with fine-grained hate speech labels is greater for smaller training datasets but washed away with the increase in dataset size. We conclude with a vision for the future of hate speech detection, emphasizing cross-domain generalizability and appropriate benchmarking practices.
翻訳日:2024-04-02 15:15:12 公開日:2024-03-30
# 多様な視点の公平な抽象的要約

Fair Abstractive Summarization of Diverse Perspectives ( http://arxiv.org/abs/2311.07884v2 )

ライセンス: Link先を確認
Yusen Zhang, Nan Zhang, Yixin Liu, Alexander Fabbri, Junru Liu, Ryo Kamoi, Xiaoxin Lu, Caiming Xiong, Jieyu Zhao, Dragomir Radev, Kathleen McKeown, Rui Zhang, (参考訳) 異なる社会・人口集団の人々は、製品レビュー、医療、法律、政治といった幅広いトピックについて、様々な視点や意見の相反を表現している。 公平な要約は、特定のグループを過小評価することなく、多様な視点を包括的にカバーしなければなりません。 しかし, 要約メトリクスとLarge Language Models (LLMs) の評価における現在の研究は, 公平な抽象的な要約を探求していない。 本稿では,ユーザ生成データに対する公平な抽象的要約を体系的に検討する。 まず, 抽象的な要約における公正さを, 対象視点と対象視点の差を測定することで, 基準のない4つの自動測定基準を提案する。 ソーシャルメディア,オンラインレビュー,記録テキストから収集した6つのデータセットに基づいて,3つのGPTモデル,4つのLLaMAモデル,PaLM 2およびClaudeを含む9つのLCMを評価した。 実験により、モデル生成と人間記述の参照サマリーの両方が、フェアネスの低下に悩まされていることが示された。 公平性に影響を与える共通要因を包括的に分析し、不公平な要約を緩和するための3つの単純かつ効果的な方法を提案する。 データセットとコードはhttps://github.com/psunlpgroup/FairSumm.comから入手可能です。

People from different social and demographic groups express diverse perspectives and conflicting opinions on a broad set of topics such as product reviews, healthcare, law, and politics. A fair summary should provide a comprehensive coverage of diverse perspectives without underrepresenting certain groups. However, current work in summarization metrics and Large Language Models (LLMs) evaluation has not explored fair abstractive summarization. In this paper, we systematically investigate fair abstractive summarization for user-generated data. We first formally define fairness in abstractive summarization as not underrepresenting perspectives of any groups of people, and we propose four reference-free automatic metrics by measuring the differences between target and source perspectives. We evaluate nine LLMs, including three GPT models, four LLaMA models, PaLM 2, and Claude, on six datasets collected from social media, online reviews, and recorded transcripts. Experiments show that both the model-generated and the human-written reference summaries suffer from low fairness. We conduct a comprehensive analysis of the common factors influencing fairness and propose three simple but effective methods to alleviate unfair summarization. Our dataset and code are available at https://github.com/psunlpgroup/FairSumm.
翻訳日:2024-04-02 15:15:12 公開日:2024-03-30
# グラフニューラルネットワークの近傍説明可能性の評価

Evaluating Neighbor Explainability for Graph Neural Networks ( http://arxiv.org/abs/2311.08118v3 )

ライセンス: Link先を確認
Oscar Llorente, Rana Fawzy, Jared Keown, Michal Horemuz, Péter Vaderna, Sándor Laki, Roland Kotroczó, Rita Csoma, János Márk Szalai-Gindl, (参考訳) グラフニューラルネットワーク(GNN)における説明可能性(Explainability in Graph Neural Networks)は、ここ数年で成長している新しい分野である。 本論文では,ノードの分類において各隣接ノードがどの程度重要か,また,そのタスクのパフォーマンスをいかに測定するか,という課題に対処する。 これを実現するために, 様々な説明可能性法を改訂し, 4つの新しい指標を提示する。 以上の結果から,GNN領域における勾配に基づく手法による説明の相違はほとんどないことが明らかとなった。 さらに、自己ループのないGNNを使用する場合、多くの説明可能性技術は重要な隣人を識別できなかった。

Explainability in Graph Neural Networks (GNNs) is a new field growing in the last few years. In this publication we address the problem of determining how important is each neighbor for the GNN when classifying a node and how to measure the performance for this specific task. To do this, various known explainability methods are reformulated to get the neighbor importance and four new metrics are presented. Our results show that there is almost no difference between the explanations provided by gradient-based techniques in the GNN domain. In addition, many explainability techniques failed to identify important neighbors when GNNs without self-loops are used.
翻訳日:2024-04-02 15:15:12 公開日:2024-03-30
# 時間的接地のためのビデオ表現学習における相関誘導クエリ依存性の校正

Correlation-guided Query-Dependency Calibration in Video Representation Learning for Temporal Grounding ( http://arxiv.org/abs/2311.08835v3 )

ライセンス: Link先を確認
WonJun Moon, Sangeek Hyun, SuBeen Lee, Jae-Pil Heo, (参考訳) ビデオ時間グラウンド(英語: Video Temporal Grounding)とは、テキスト記述に対応するビデオから特定の瞬間やハイライトを特定することである。 時間的グラウンドディングにおける典型的なアプローチは、テキストクエリと意味的関連性にかかわらず、エンコーディングプロセス中にすべてのビデオクリップを等しく扱う。 そこで本研究では,クロスモーダルアテンション内での問合せ関連ビデオクリップの手がかりを提供するための相関型検出TRansformer(CG-DETR)を提案する。 まず,ダミートークンを用いた適応的クロスアテンションを設計する。 テキストクエリによって条件付けられたダミートークンは、注意重みの一部を取り、無関係なビデオクリップがテキストクエリで表現されるのを防ぐ。 しかし、すべての単語が、ビデオクリップに対するテキストクエリの相関を均等に継承するわけではない。 そこで我々は,ビデオクリップと単語の微妙な相関関係を推定することにより,クロスアテンションマップをさらにガイドする。 我々は,高レベルな概念,すなわちモーメントと文レベルの共同埋め込み空間を学習し,クリップワードの相関関係を推定することで,これを実現できる。 最後に、モーメント固有の特徴を利用して、各ビデオのコンテキストと組み合わせて、モーメント適応型サリエンシ検出器を形成する。 各ビデオクリップのテキストエンゲージメントの度合いを利用して、各クリップのハイライト度を正確に測定する。 CG-DETRは時間的接地のための様々なベンチマークで最先端の結果を得る。

Video Temporal Grounding is to identify specific moments or highlights from a video corresponding to textual descriptions. Typical approaches in temporal grounding treat all video clips equally during the encoding process regardless of their semantic relevance with the text query. Therefore, we propose Correlation-Guided DEtection TRansformer(CG-DETR), exploring to provide clues for query-associated video clips within the cross-modal attention. First, we design an adaptive cross-attention with dummy tokens. Dummy tokens conditioned by text query take portions of the attention weights, preventing irrelevant video clips from being represented by the text query. Yet, not all words equally inherit the text query's correlation to video clips. Thus, we further guide the cross-attention map by inferring the fine-grained correlation between video clips and words. We enable this by learning a joint embedding space for high-level concepts, i.e., moment and sentence level, and inferring the clip-word correlation. Lastly, we exploit the moment-specific characteristics and combine them with the context of each video to form a moment-adaptive saliency detector. By exploiting the degrees of text engagement in each video clip, it precisely measures the highlightness of each clip. CG-DETR achieves state-of-the-art results on various benchmarks for temporal grounding.
翻訳日:2024-04-02 15:15:12 公開日:2024-03-30
# 神経進化を伴う土地利用計画における効果的な政策の発見

Discovering Effective Policies for Land-Use Planning with Neuroevolution ( http://arxiv.org/abs/2311.12304v4 )

ライセンス: Link先を確認
Risto Miikkulainen, Olivier Francon, Daniel Young, Elliot Meyerson, Clemens Schwingshackl, Jacob Bieker, Hugo Cunha, Babak Hodjat, (参考訳) 森林、都市部、農業など、異なる用途のためにどのように土地が配分されるかは、地球上の炭素収支に大きな影響を与える。 土地利用の変化に関する過去のデータと、関連する炭素排出量と除去のシミュレーションに基づいて、サロゲートモデルを学び、意思決定者が利用できる様々な選択肢を効率的に評価することができる。 進化的探索プロセスは、特定の場所に対する効果的な土地利用政策を発見するために使用できる。 このようなシステムはProject Resilienceプラットフォーム上に構築され、Land-Use HarmonizationデータセットLUH2と簿記モデルBLUEで評価された。 パレートは、炭素の衝突と土地利用の変化の量とを異なる場所にカスタマイズするパレートフロントを生産し、土地利用計画のための潜在的に有用なツールを提供する。

How areas of land are allocated for different uses, such as forests, urban areas, and agriculture, has a large effect on the terrestrial carbon balance, and therefore climate change. Based on available historical data on land-use changes and a simulation of the associated carbon emissions and removals, a surrogate model can be learned that makes it possible to evaluate the different options available to decision-makers efficiently. An evolutionary search process can then be used to discover effective land-use policies for specific locations. Such a system was built on the Project Resilience platform and evaluated with the Land-Use Harmonization dataset LUH2 and the bookkeeping model BLUE. It generates Pareto fronts that trade off carbon impact and amount of land-use change customized to different locations, thus providing a potentially useful tool for land-use planning.
翻訳日:2024-04-02 15:05:24 公開日:2024-03-30
# SD-NAE : 安定拡散による自然逆転例の生成

SD-NAE: Generating Natural Adversarial Examples with Stable Diffusion ( http://arxiv.org/abs/2311.12981v2 )

ライセンス: Link先を確認
Yueqian Lin, Jingyang Zhang, Yiran Chen, Hai Li, (参考訳) 自然敵例(NAEs)は、環境から自然に発生し、分類器を判断できるイメージであり、訓練されたモデルの脆弱性を堅牢に評価し識別するのに役立つ。 本研究では,実画像からNAEを受動的に収集する従来の研究とは異なり,現状の安定拡散を用いてNAEを積極的に合成することを提案する。 具体的には、制御された最適化プロセスを定式化し、特定のクラスに対応するトークン埋め込みを摂動させてNAEを生成する。 この生成プロセスは、ターゲット分類器からの損失の勾配によって導かれ、生成した画像が基底構造クラスを忠実に模倣するが、分類器を騙す。 SD-NAE (Stable Diffusion for Natural Adversarial Examples) と呼ばれるこの手法は, 有効かつ有用なNAEの生成に有効である。 コードはhttps://github.com/linyueqian/SD-NAEで入手できる。

Natural Adversarial Examples (NAEs), images arising naturally from the environment and capable of deceiving classifiers, are instrumental in robustly evaluating and identifying vulnerabilities in trained models. In this work, unlike prior works that passively collect NAEs from real images, we propose to actively synthesize NAEs using the state-of-the-art Stable Diffusion. Specifically, our method formulates a controlled optimization process, where we perturb the token embedding that corresponds to a specified class to generate NAEs. This generation process is guided by the gradient of loss from the target classifier, ensuring that the created image closely mimics the ground-truth class yet fools the classifier. Named SD-NAE (Stable Diffusion for Natural Adversarial Examples), our innovative method is effective in producing valid and useful NAEs, which is demonstrated through a meticulously designed experiment. Code is available at https://github.com/linyueqian/SD-NAE.
翻訳日:2024-04-02 15:05:24 公開日:2024-03-30
# SiTH:画像共有拡散を用いた単視点テクスチャ再構築

SiTH: Single-view Textured Human Reconstruction with Image-Conditioned Diffusion ( http://arxiv.org/abs/2311.15855v2 )

ライセンス: Link先を確認
Hsuan-I Ho, Jie Song, Otmar Hilliges, (参考訳) 3Dの人間の復元の長年の目標は、一眼レフ画像から、生き生きとした、完全に詳細な3D人間を作ることである。 主な課題は、画像に見えない領域で、未知の体形、外観、衣服の詳細を推測することである。 そこで我々は,画像条件付き拡散モデルと3次元メッシュ再構築ワークフローを一意に統合した新しいパイプラインSiTHを提案する。 本手法の核心は,難解な単一視点再構成問題を生成幻覚と再構成サブプロブレムに分解することである。 前者に対しては、入力画像に基づいて、見えないバックビューの出現を幻覚させる強力な生成拡散モデルを用いる。 後者では,入力画像とバックビュー画像から全身のテクスチャメッシュを復元するためのガイダンスとして,肌付きボディーメッシュを利用する。 SiTHは、訓練のために最大500個の3Dスキャンを必要とするが、その汎用性と多様な画像に対する堅牢性は維持されている。 新たに作成したものを含む2つの3次元人体ベンチマークの広範囲な評価では,3次元テクスチャ化された人体再構成における手法の精度と知覚的品質が強調された。 私たちのコードと評価ベンチマークはhttps://ait.ethz.ch/sithで公開されています。

A long-standing goal of 3D human reconstruction is to create lifelike and fully detailed 3D humans from single-view images. The main challenge lies in inferring unknown body shapes, appearances, and clothing details in areas not visible in the images. To address this, we propose SiTH, a novel pipeline that uniquely integrates an image-conditioned diffusion model into a 3D mesh reconstruction workflow. At the core of our method lies the decomposition of the challenging single-view reconstruction problem into generative hallucination and reconstruction subproblems. For the former, we employ a powerful generative diffusion model to hallucinate unseen back-view appearance based on the input images. For the latter, we leverage skinned body meshes as guidance to recover full-body texture meshes from the input and back-view images. SiTH requires as few as 500 3D human scans for training while maintaining its generality and robustness to diverse images. Extensive evaluations on two 3D human benchmarks, including our newly created one, highlighted our method's superior accuracy and perceptual quality in 3D textured human reconstruction. Our code and evaluation benchmark are available at https://ait.ethz.ch/sith
翻訳日:2024-04-02 15:05:24 公開日:2024-03-30
# As-Plausible-As-Possible: 2次元拡散前処理による可塑性-認識メッシュ変形

As-Plausible-As-Possible: Plausibility-Aware Mesh Deformation Using 2D Diffusion Priors ( http://arxiv.org/abs/2311.16739v2 )

ライセンス: Link先を確認
Seungwoo Yoo, Kunho Kim, Vladimir G. Kim, Minhyuk Sung, (参考訳) 本稿では2次元拡散を利用したAs-Plausible-as-Possible(APAP)メッシュ変形手法を提案する。 我々のフレームワークは、メッシュ変形を表すために、顔ごとのジャコビアンを用いており、メッシュ頂点座標は、微分可能なポアソン解によって計算される。 変形メッシュを描画し、得られた2D画像をスコア蒸留サンプリング(SDS)プロセスで使用することにより、事前訓練された2D拡散モデルから有意義な可視性を抽出することができる。 編集メッシュのアイデンティティをよりよく保存するために、私たちはLoRAで2次元拡散モデルを微調整します。 SDSによって抽出された勾配とユーザが規定するハンドル変位は、顔ごとのジャコビアンに逆転し、ユーザー編集と出力可否のバランスをとる最終的な変形を計算するために反復勾配勾配を用いて計算する。 提案手法を2次元および3次元メッシュを用いて評価し,従来手法で用いた幾何保存や歪み最小化に先立って,定性的かつ定量的な精度向上を図った。 私たちのプロジェクトページは以下の通りです。

We present As-Plausible-as-Possible (APAP) mesh deformation technique that leverages 2D diffusion priors to preserve the plausibility of a mesh under user-controlled deformation. Our framework uses per-face Jacobians to represent mesh deformations, where mesh vertex coordinates are computed via a differentiable Poisson Solve. The deformed mesh is rendered, and the resulting 2D image is used in the Score Distillation Sampling (SDS) process, which enables extracting meaningful plausibility priors from a pretrained 2D diffusion model. To better preserve the identity of the edited mesh, we fine-tune our 2D diffusion model with LoRA. Gradients extracted by SDS and a user-prescribed handle displacement are then backpropagated to the per-face Jacobians, and we use iterative gradient descent to compute the final deformation that balances between the user edit and the output plausibility. We evaluate our method with 2D and 3D meshes and demonstrate qualitative and quantitative improvements when using plausibility priors over geometry-preservation or distortion-minimization priors used by previous techniques. Our project page is at: https://as-plausible-aspossible.github.io/
翻訳日:2024-04-02 15:05:24 公開日:2024-03-30
# MMA拡散:拡散モデルに対するマルチモーダル攻撃

MMA-Diffusion: MultiModal Attack on Diffusion Models ( http://arxiv.org/abs/2311.17516v4 )

ライセンス: Link先を確認
Yijun Yang, Ruiyuan Gao, Xiaosen Wang, Tsung-Yi Ho, Nan Xu, Qiang Xu, (参考訳) 近年,テキスト・ツー・イメージ(T2I)モデルは顕著な進歩を遂げ,広く普及している。 しかし、この進歩は、特に不適切な、あるいは安全でない(NSFW)コンテンツを生成する際の、潜在的な誤用に対する不注意な道を開いた。 MMA-Diffusionは,オープンソースモデルと商用オンラインサービスの両方において,現在の防御対策を効果的に回避し,T2Iモデルのセキュリティに対する顕著かつ現実的な脅威を示すフレームワークである。 従来のアプローチとは異なり、MMA-Diffusionはテキストモードとビジュアルモードの両方を利用して、プロンプトフィルタやポストホックセーフティチェッカーのようなセーフガードを回避し、既存の防御機構の脆弱性を暴露し、強調する。

In recent years, Text-to-Image (T2I) models have seen remarkable advancements, gaining widespread adoption. However, this progress has inadvertently opened avenues for potential misuse, particularly in generating inappropriate or Not-Safe-For-Work (NSFW) content. Our work introduces MMA-Diffusion, a framework that presents a significant and realistic threat to the security of T2I models by effectively circumventing current defensive measures in both open-source models and commercial online services. Unlike previous approaches, MMA-Diffusion leverages both textual and visual modalities to bypass safeguards like prompt filters and post-hoc safety checkers, thus exposing and highlighting the vulnerabilities in existing defense mechanisms.
翻訳日:2024-04-02 14:55:32 公開日:2024-03-30
# U-Net v2: 医用画像分割のためのU-Netのスキップ接続再考

U-Net v2: Rethinking the Skip Connections of U-Net for Medical Image Segmentation ( http://arxiv.org/abs/2311.17791v2 )

ライセンス: Link先を確認
Yaopeng Peng, Milan Sonka, Danny Z. Chen, (参考訳) 本稿では,医用画像分割のための新しい堅牢で効率的なU-Net変種であるU-Net v2を紹介する。 セマンティックな情報を低レベルの機能に注入し、同時に細かな詳細で高レベルの機能を改善することを目的としている。 入力画像は、ディープニューラルネットワークエンコーダを用いて複数レベルの特徴を抽出することから始める。 次に、ハイレベルな特徴から意味情報を注入し、アダマール製品を通じて低レベルな特徴からより詳細な情報を統合することにより、各レベルの特徴マップを強化する。 我々の新しいスキップ接続は、豊富なセマンティック特性と複雑な詳細を持つ全てのレベルの特徴を増強する。 改良された機能はその後デコーダに送信され、さらなる処理とセグメンテーションが行われる。 本手法は任意のEncoder-Decoderネットワークにシームレスに統合できる。 本手法は皮膚病変のセグメンテーションとポリープのセグメンテーションのためのいくつかの公開医用画像セグメンテーションデータセットを用いて評価し, メモリと計算効率を保ちながら, 最新手法に対する新しい手法のセグメンテーション精度を実証した。 コードは、https://github.com/yaoppeng/U-Net_v2で入手できる。

In this paper, we introduce U-Net v2, a new robust and efficient U-Net variant for medical image segmentation. It aims to augment the infusion of semantic information into low-level features while simultaneously refining high-level features with finer details. For an input image, we begin by extracting multi-level features with a deep neural network encoder. Next, we enhance the feature map of each level by infusing semantic information from higher-level features and integrating finer details from lower-level features through Hadamard product. Our novel skip connections empower features of all the levels with enriched semantic characteristics and intricate details. The improved features are subsequently transmitted to the decoder for further processing and segmentation. Our method can be seamlessly integrated into any Encoder-Decoder network. We evaluate our method on several public medical image segmentation datasets for skin lesion segmentation and polyp segmentation, and the experimental results demonstrate the segmentation accuracy of our new method over state-of-the-art methods, while preserving memory and computational efficiency. Code is available at: https://github.com/yaoppeng/U-Net_v2
翻訳日:2024-04-02 14:55:32 公開日:2024-03-30
# 合成, 診断, 最適化: 微粒化視覚言語理解を目指して

Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language Understanding ( http://arxiv.org/abs/2312.00081v2 )

ライセンス: Link先を確認
Wujian Peng, Sicheng Xie, Zuyao You, Shiyi Lan, Zuxuan Wu, (参考訳) 視覚言語モデル(VLM)は、様々な下流タスクで顕著な性能を示した。 しかし、属性やオブジェクト間の関係など、きめ細かい視覚言語概念を理解することは、依然として重要な課題である。 いくつかのベンチマークでは、VLMをより細かい粒度で評価することを目指しているが、その主な焦点は、視覚的次元を無視した言語的側面である。 本稿では,テキストと視覚の両方の観点から,VLMを評価することの重要性を強調した。 他のすべての面において一貫性を確保しつつ、特定の属性で異なる画像を合成するプログレッシブパイプラインを導入する。 このデータエンジンを利用することで、オブジェクトのサイズ、位置、存在、およびカウントの理解を診断するためのベンチマークSPECを慎重に設計する。 続いて,SPEC 上での 4 つの主要な VLM の徹底的な評価を行った。 驚くべきことに、彼らのパフォーマンスはランダムな推測に近づき、重大な制限を明らかにしている。 このことを念頭において、ゼロショット性能を損なうことなくSPECの大幅な改善を実現し、精細な理解でVLMを最適化するための単純かつ効果的なアプローチを提案する。 さらに2つの詳細なベンチマークの結果は、一貫した改善を示し、我々のアプローチの転送可能性をさらに検証した。 コードとデータはhttps://github.com/wjpoom/SPEC.comで公開されている。

Vision language models (VLM) have demonstrated remarkable performance across various downstream tasks. However, understanding fine-grained visual-linguistic concepts, such as attributes and inter-object relationships, remains a significant challenge. While several benchmarks aim to evaluate VLMs in finer granularity, their primary focus remains on the linguistic aspect, neglecting the visual dimension. Here, we highlight the importance of evaluating VLMs from both a textual and visual perspective. We introduce a progressive pipeline to synthesize images that vary in a specific attribute while ensuring consistency in all other aspects. Utilizing this data engine, we carefully design a benchmark, SPEC, to diagnose the comprehension of object size, position, existence, and count. Subsequently, we conduct a thorough evaluation of four leading VLMs on SPEC. Surprisingly, their performance is close to random guess, revealing significant limitations. With this in mind, we propose a simple yet effective approach to optimize VLMs in fine-grained understanding, achieving significant improvements on SPEC without compromising the zero-shot performance. Results on two additional fine-grained benchmarks also show consistent improvements, further validating the transferability of our approach. Code and data are available at https://github.com/wjpoom/SPEC.
翻訳日:2024-04-02 14:55:32 公開日:2024-03-30
# 継続的学習の自動化

Automating Continual Learning ( http://arxiv.org/abs/2312.00276v2 )

ライセンス: Link先を確認
Kazuki Irie, Róbert Csordás, Jürgen Schmidhuber, (参考訳) 汎用学習システムは、常に変化する環境において、オープンエンドで自己改善するべきである。 しかし、ニューラルネットワークの従来の学習アルゴリズムは破滅的な忘れ(CF)に悩まされている。 CFを避けるための新しいアルゴリズムを手作りする代わりに,自己参照型ニューラルネットワークをメタラーニングして,コンテキスト内連続(メタ)学習アルゴリズムをメタラーニングする,自動連続学習(ACL)を提案する。 ACLは、すべてのdesiderata -- 古いタスクと新しいタスクの優れたパフォーマンス -- を、メタ学習の目標にエンコードします。 我々のACL学習アルゴリズムは、リプレイフリー環境でのSplit-MNISTベンチマークにおいて、手作りのアルゴリズムよりも優れており、複数ショットおよび標準画像分類データセットからなる多様なタスクの連続的な学習を可能にしている。

General-purpose learning systems should improve themselves in open-ended fashion in ever-changing environments. Conventional learning algorithms for neural networks, however, suffer from catastrophic forgetting (CF) -- previously acquired skills are forgotten when a new task is learned. Instead of hand-crafting new algorithms for avoiding CF, we propose Automated Continual Learning (ACL) to train self-referential neural networks to meta-learn their own in-context continual (meta-)learning algorithms. ACL encodes all desiderata -- good performance on both old and new tasks -- into its meta-learning objectives. Our experiments demonstrate that ACL effectively solves "in-context catastrophic forgetting"; our ACL-learned algorithms outperform hand-crafted ones, e.g., on the Split-MNIST benchmark in the replay-free setting, and enables continual learning of diverse tasks consisting of multiple few-shot and standard image classification datasets.
翻訳日:2024-04-02 14:55:32 公開日:2024-03-30
# 脳はディープネットをデコードする

Brain Decodes Deep Nets ( http://arxiv.org/abs/2312.01280v2 )

ライセンス: Link先を確認
Huzheng Yang, James Gee, Jianbo Shi, (参考訳) 我々は、脳にマッピングすることで、大きな訓練済み視覚モデルの可視化と解析を行うツールを開発し、内部に隠された視覚モデルを明らかにする。 私たちのイノベーションは、画像に反応して脳のfMRI測定を予測する脳エンコーディングの驚くべき利用から生まれます。 我々は2つの発見を報告した。 まず、空間、層、スケール、チャネルの次元にまたがる脳とディープ・ネットワークの機能を明確にマッピングすることが重要です。 FactorTopyというこのマッピング手法は、どんなディープ・ネットワークにもプラグイン&プレイできる。 第二に、私たちの可視化は、異なるトレーニング方法がいかに重要かを示しています。階層的な組織とスケーリングの振る舞いに顕著な違いをもたらし、より多くのデータやネットワーク容量で成長します。 また、小さなデータセットに適応する際に、事前トレーニングされたモデルがどのように変化するか、微調整に関する洞察も提供する。 脳のような階層的なネットワークは、微調整後の破滅的な忘れ込みに悩まされることがわかりました。

We developed a tool for visualizing and analyzing large pre-trained vision models by mapping them onto the brain, thus exposing their hidden inside. Our innovation arises from a surprising usage of brain encoding: predicting brain fMRI measurements in response to images. We report two findings. First, explicit mapping between the brain and deep-network features across dimensions of space, layers, scales, and channels is crucial. This mapping method, FactorTopy, is plug-and-play for any deep-network; with it, one can paint a picture of the network onto the brain (literally!). Second, our visualization shows how different training methods matter: they lead to remarkable differences in hierarchical organization and scaling behavior, growing with more data or network capacity. It also provides insight into fine-tuning: how pre-trained models change when adapting to small datasets. We found brain-like hierarchically organized network suffer less from catastrophic forgetting after fine-tuned.
翻訳日:2024-04-02 14:55:32 公開日:2024-03-30
# SAGE:Articulated ObjectsのGEneralizable Manipulationのためのセマンティックおよび動作可能な部品のブリッジ

SAGE: Bridging Semantic and Actionable Parts for GEneralizable Manipulation of Articulated Objects ( http://arxiv.org/abs/2312.01307v2 )

ライセンス: Link先を確認
Haoran Geng, Songlin Wei, Congyue Deng, Bokui Shen, He Wang, Leonidas Guibas, (参考訳) 多様な構造や機能を持つ日常的な明瞭なオブジェクトと対話し、ユーザ命令理解とタスク実行の両方において、オブジェクト部品の理解が中心的な役割を果たす。 しかしながら、部品の意味と物理機能との間の不一致は、一般的なシステムを設計する上での課題である。 この問題に対処するために,自然言語命令下での汎用的な操作を実現するために,音声オブジェクトの意味的および動作可能な部分を橋渡しする新しいフレームワークであるSAGEを提案する。 より具体的には、記述されたオブジェクトが与えられた場合、まず、命令インタプリタが自然言語命令を拡張可能なアクションプログラムを提案する条件付きで、その上のすべての意味部分を観察する。 次に、部分接地モジュールは、セマンティック部分を、本来は部分運動に関する情報を運ぶ、いわゆるGeneralizable Actionable Parts (GAParts)にマッピングする。 エンドエフェクタの軌道はGAParts上で予測され、アクションプログラムとともに実行可能なポリシーを形成する。 さらに、インタラクティブなフィードバックモジュールが障害に対応するために組み込まれており、ループを閉じ、全体的なフレームワークの堅牢性を高める。 我々のフレームワークの成功の鍵は、大きな視覚言語モデル(VLM)とコンテキスト理解と部分認識の両方のための小さなドメイン固有モデルとの合同提案と知識融合であり、前者は一般的な直観を提供し、後者は専門的な事実として機能する。 シミュレーションと実ロボット実験の両方で、多種多様な言語に指示された目的を持つ多種多様な音声オブジェクトの処理の有効性が示されている。

To interact with daily-life articulated objects of diverse structures and functionalities, understanding the object parts plays a central role in both user instruction comprehension and task execution. However, the possible discordance between the semantic meaning and physics functionalities of the parts poses a challenge for designing a general system. To address this problem, we propose SAGE, a novel framework that bridges semantic and actionable parts of articulated objects to achieve generalizable manipulation under natural language instructions. More concretely, given an articulated object, we first observe all the semantic parts on it, conditioned on which an instruction interpreter proposes possible action programs that concretize the natural language instruction. Then, a part-grounding module maps the semantic parts into so-called Generalizable Actionable Parts (GAParts), which inherently carry information about part motion. End-effector trajectories are predicted on the GAParts, which, together with the action program, form an executable policy. Additionally, an interactive feedback module is incorporated to respond to failures, which closes the loop and increases the robustness of the overall framework. Key to the success of our framework is the joint proposal and knowledge fusion between a large vision-language model (VLM) and a small domain-specific model for both context comprehension and part perception, with the former providing general intuitions and the latter serving as expert facts. Both simulation and real-robot experiments show our effectiveness in handling a large variety of articulated objects with diverse language-instructed goals.
翻訳日:2024-04-02 14:55:32 公開日:2024-03-30
# Gaussian Avatar: Animatable 3D Gaussianによる単一ビデオからのリアルなヒューマンアバターモデリングを目指して

GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians ( http://arxiv.org/abs/2312.02134v3 )

ライセンス: Link先を確認
Liangxiao Hu, Hongwen Zhang, Yuxiang Zhang, Boyao Zhou, Boning Liu, Shengping Zhang, Liqiang Nie, (参考訳) 本稿では,ガウシアン・アバター(Gaussian Avatar)について紹介する。 まずアニマタブルな3Dガウシアンを導入し、さまざまなポーズや服装スタイルで人間を明示的に表現することから始める。 このような明示的でアニマタブルな表現は、より効率的で一貫して2次元観測から3Dの外観を融合させることができる。 我々の表現は、ポーズ依存の外観モデリングをサポートするために、動的特性でさらに強化されており、動的外観ネットワークと最適化可能な特徴テンソルは、モーション・トゥ・アジュアンス・マッピングを学習するために設計されている。 さらに, 異なる動作条件を活用することで, アバターモデリングにおける動作と外観の同時最適化が可能となり, モノクロ環境における不正確な動作推定の長年の問題に対処する上で有効である。 GaussianAvatarの有効性は、公開データセットと収集データセットの両方で検証され、外観品質とレンダリング効率の点で優れた性能を示している。

We present GaussianAvatar, an efficient approach to creating realistic human avatars with dynamic 3D appearances from a single video. We start by introducing animatable 3D Gaussians to explicitly represent humans in various poses and clothing styles. Such an explicit and animatable representation can fuse 3D appearances more efficiently and consistently from 2D observations. Our representation is further augmented with dynamic properties to support pose-dependent appearance modeling, where a dynamic appearance network along with an optimizable feature tensor is designed to learn the motion-to-appearance mapping. Moreover, by leveraging the differentiable motion condition, our method enables a joint optimization of motions and appearances during avatar modeling, which helps to tackle the long-standing issue of inaccurate motion estimation in monocular settings. The efficacy of GaussianAvatar is validated on both the public dataset and our collected dataset, demonstrating its superior performances in terms of appearance quality and rendering efficiency.
翻訳日:2024-04-02 14:55:32 公開日:2024-03-30
# 学習可能なグラフポーリングネットワークによるモデル解析におけるハイパーパラメータ依存性の追跡

Tracing Hyperparameter Dependencies for Model Parsing via Learnable Graph Pooling Network ( http://arxiv.org/abs/2312.02224v2 )

ライセンス: Link先を確認
Xiao Guo, Vishal Asnani, Sijia Liu, Xiaoming Liu, (参考訳) モデルパーシングは、生成モデル(GM)のハイパーパラメータを予測する研究タスクを定義し、生成した画像を入力として与える。 多様なハイパーパラメータの集合が生成モデルに共同で採用され、それらの依存関係がしばしば存在するため、モデル解析性能を改善するためにこれらのハイパーパラメータの依存関係を学ぶことが不可欠である。 このような重要な依存関係を探索するために,Learnable Graph Pooling Network (LGPN) と呼ばれる新しいモデル解析手法を提案する。 具体的には,モデル解析をグラフノード分類タスクに変換し,グラフノードとエッジを用いてハイパーパラメータとその依存関係を表現する。 さらに、LGPNはモデル解析に適した学習可能なプールアンプール機構を導入し、入力画像を生成するために使用されるGMのハイパーパラメータ依存性を適応的に学習する。 また,提案手法をCNN生成画像検出とコーディネートアタック検出に拡張する。 実験により,本手法の有効性を実証し,モデル解析とその拡張応用の最先端化を実現した。 ソースコードは利用可能です。

Model Parsing defines the research task of predicting hyperparameters of the generative model (GM), given a generated image as input. Since a diverse set of hyperparameters is jointly employed by the generative model, and dependencies often exist among them, it is crucial to learn these hyperparameter dependencies for the improved model parsing performance. To explore such important dependencies, we propose a novel model parsing method called Learnable Graph Pooling Network (LGPN). Specifically, we transform model parsing into a graph node classification task, using graph nodes and edges to represent hyperparameters and their dependencies, respectively. Furthermore, LGPN incorporates a learnable pooling-unpooling mechanism tailored to model parsing, which adaptively learns hyperparameter dependencies of GMs used to generate the input image. We also extend our proposed method to CNN-generated image detection and coordinate attacks detection. Empirically, we achieve state-of-the-art results in model parsing and its extended applications, showing the effectiveness of our method. Our source code are available.
翻訳日:2024-04-02 14:45:23 公開日:2024-03-30
# ゼロショット3Dポイントクラウド理解のための幾何学的集約

Geometrically-driven Aggregation for Zero-shot 3D Point Cloud Understanding ( http://arxiv.org/abs/2312.02244v2 )

ライセンス: Link先を確認
Guofeng Mei, Luigi Riz, Yiming Wang, Fabio Poiesi, (参考訳) ゼロショット3Dポイントクラウド理解は、VLM(2D Vision-Language Models)によって実現される。 既存の戦略は、ヴィジュアル・ランゲージ・モデル(Vision-Language Model)をレンダリングまたはキャプチャされた2Dピクセルから3Dポイントにマッピングし、固有かつ表現可能な雲の幾何学構造を見渡す。 幾何学的に類似している領域や近縁な領域は、意味情報を共有する可能性が高いため、ポイントクラウドの理解を促進するために利用することができる。 そこで本研究では, 点雲の3次元幾何構造を利用して, 移動したビジョン・ランゲージモデルの品質を向上する, 初めての学習自由集約手法を提案する。 提案手法は,幾何学的および意味的点レベルの推論に基づく局所的-言語的集合を反復的に行う。 我々は、分類、部分のセグメンテーション、セマンティックセグメンテーションを含む3つの下流タスクに対するアプローチを、合成/実世界のシナリオと屋内/屋外シナリオの両方を表すさまざまなデータセットでベンチマークした。 提案手法は,すべてのベンチマークにおいて新しい最先端結果を実現する。 ソースコードを公開します。

Zero-shot 3D point cloud understanding can be achieved via 2D Vision-Language Models (VLMs). Existing strategies directly map Vision-Language Models from 2D pixels of rendered or captured views to 3D points, overlooking the inherent and expressible point cloud geometric structure. Geometrically similar or close regions can be exploited for bolstering point cloud understanding as they are likely to share semantic information. To this end, we introduce the first training-free aggregation technique that leverages the point cloud's 3D geometric structure to improve the quality of the transferred Vision-Language Models. Our approach operates iteratively, performing local-to-global aggregation based on geometric and semantic point-level reasoning. We benchmark our approach on three downstream tasks, including classification, part segmentation, and semantic segmentation, with a variety of datasets representing both synthetic/real-world, and indoor/outdoor scenarios. Our approach achieves new state-of-the-art results in all benchmarks. We will release the source code publicly.
翻訳日:2024-04-02 14:45:23 公開日:2024-03-30
# ガウスの頭部アバター:動的ガウスによる超高忠実頭部アバター

Gaussian Head Avatar: Ultra High-fidelity Head Avatar via Dynamic Gaussians ( http://arxiv.org/abs/2312.03029v2 )

ライセンス: Link先を確認
Yuelang Xu, Benwang Chen, Zhe Li, Hongwen Zhang, Lizhen Wang, Zerong Zheng, Yebin Liu, (参考訳) 高忠実度3Dヘッドアバターを作ることは、常に研究のホットスポットとなっている。 本稿では,高忠実度頭部アバターモデリングのための制御可能な3次元ガウスアンで表されるガウスヘッドアバターを提案する。 我々は中性3次元ガウス場と完全に学習されたMLPに基づく変形場を最適化し、複雑な表現を捉える。 そこで本手法は,表現精度を確保しつつ,微細な動的詳細をモデル化することができる。 さらに、暗黙のSDFとDeep Marching Tetrahedraに基づく幾何誘導初期化戦略を考案し、トレーニング手順の安定性と収束性について検討した。 実験により, 過大な表現下においても, 2K解像度での超高忠実なレンダリング品質を実現することができた。

Creating high-fidelity 3D head avatars has always been a research hotspot, but there remains a great challenge under lightweight sparse view setups. In this paper, we propose Gaussian Head Avatar represented by controllable 3D Gaussians for high-fidelity head avatar modeling. We optimize the neutral 3D Gaussians and a fully learned MLP-based deformation field to capture complex expressions. The two parts benefit each other, thereby our method can model fine-grained dynamic details while ensuring expression accuracy. Furthermore, we devise a well-designed geometry-guided initialization strategy based on implicit SDF and Deep Marching Tetrahedra for the stability and convergence of the training procedure. Experiments show our approach outperforms other state-of-the-art sparse-view methods, achieving ultra high-fidelity rendering quality at 2K resolution even under exaggerated expressions.
翻訳日:2024-04-02 14:45:23 公開日:2024-03-30
# Free3D:3次元表現のない一貫性のある新しいビュー合成

Free3D: Consistent Novel View Synthesis without 3D Representation ( http://arxiv.org/abs/2312.04551v2 )

ライセンス: Link先を確認
Chuanxia Zheng, Andrea Vedaldi, (参考訳) 単分子開集合新規ビュー合成(NVS)のための簡易な高精度な手法であるFree3Dを紹介する。 Zero-1-to-3と同様に、我々は、一般化のための事前訓練された2Dイメージジェネレータから始め、NVSのために微調整する。 同様のアプローチを採った他の作品と比較すると,3次元の表現に頼らず,動作が遅く,メモリ消費も少なく,さらに3次元再構成のためのネットワークのトレーニングも行わないなど,大幅な改善が得られている。 我々の重要な貢献は、ターゲットカメラのポーズをネットワークにエンコードする方法を改善することであり、新しいレイコンディショニング正規化(RCN)層を導入することで実現している。 後者は、各画素の表示方向を指示することにより、基礎となる2D画像生成装置にポーズ情報を注入する。 軽量なマルチビューアテンション層を用いて、異なるビュー間で生成ノイズを共有することにより、マルチビューの一貫性をさらに向上する。 我々はObjaverseデータセット上でFree3Dをトレーニングし、OmniObject3DやGSOを含む新しいデータセットの新しいカテゴリに優れた一般化を示す。 プロジェクトのページはhttps://chuanxiaz.com/free3d/.comで公開されている。

We introduce Free3D, a simple accurate method for monocular open-set novel view synthesis (NVS). Similar to Zero-1-to-3, we start from a pre-trained 2D image generator for generalization, and fine-tune it for NVS. Compared to other works that took a similar approach, we obtain significant improvements without resorting to an explicit 3D representation, which is slow and memory-consuming, and without training an additional network for 3D reconstruction. Our key contribution is to improve the way the target camera pose is encoded in the network, which we do by introducing a new ray conditioning normalization (RCN) layer. The latter injects pose information in the underlying 2D image generator by telling each pixel its viewing direction. We further improve multi-view consistency by using light-weight multi-view attention layers and by sharing generation noise between the different views. We train Free3D on the Objaverse dataset and demonstrate excellent generalization to new categories in new datasets, including OmniObject3D and GSO. The project page is available at https://chuanxiaz.com/free3d/.
翻訳日:2024-04-02 14:45:23 公開日:2024-03-30
# すべての川が海に向かって走る:非対称な流れを持つプライベートラーニング

All Rivers Run to the Sea: Private Learning with Asymmetric Flows ( http://arxiv.org/abs/2312.05264v3 )

ライセンス: Link先を確認
Yue Niu, Ramy E. Ali, Saurav Prakash, Salman Avestimehr, (参考訳) データプライバシは、クラウドサービスのマシンラーニングサービスプラットフォームにおいて、センシティブなデータがサービスプロバイダに公開される場合に、大きな関心事になります。 プライベートコンピューティング環境(セキュアなエンクレーブなど)や暗号化アプローチ(ホモモルフィック暗号化など)は、強力なプライバシ保護を提供する一方で、同社のコンピューティングパフォーマンスは、クラウドGPUと比較しても低い。 計算性能の高いプライバシ保護を実現するために,非プライベート集中型トレーニングと同等のモデル性能を備えた,新たなプライベートトレーニングおよび推論フレームワークであるDeltaを提案する。 Deltaは2つの非対称なデータフローを特徴としている。 主部分は小さなモデルに流れ、残余は大きなモデルにオフロードされる。 具体的には、デルタは情報に敏感な表現を低次元空間に埋め込み、情報に敏感な部分を高次元の残留物に押し込む。 プライバシー保護を確保するため、低次元情報感度部を保護し、プライベート環境で小さなモデルに供給する。 一方、残部は高速なクラウドGPUに送られ、大きなモデルで処理される。 プライバシーをさらに強化し、通信コストを削減するため、Deltaはパブリックプラットフォームと共有する前に、DPベースのテクニックとともにランダムなバイナリ量子化技術を適用している。 理論的には、Deltaは公共環境における差分プライバシーを保証し、プライベート環境における複雑さを大幅に低減する。 我々は、CIFAR-10、CIFAR-100、ImageNetデータセット、ResNet-18、ResNet-34に関する実証分析を行い、Deltaがモデルユーティリティを著しく妥協することなく、強力なプライバシ保護、高速トレーニング、推論を実現することを示す。

Data privacy is of great concern in cloud machine-learning service platforms, when sensitive data are exposed to service providers. While private computing environments (e.g., secure enclaves), and cryptographic approaches (e.g., homomorphic encryption) provide strong privacy protection, their computing performance still falls short compared to cloud GPUs. To achieve privacy protection with high computing performance, we propose Delta, a new private training and inference framework, with comparable model performance as non-private centralized training. Delta features two asymmetric data flows: the main information-sensitive flow and the residual flow. The main part flows into a small model while the residuals are offloaded to a large model. Specifically, Delta embeds the information-sensitive representations into a low-dimensional space while pushing the information-insensitive part into high-dimension residuals. To ensure privacy protection, the low-dimensional information-sensitive part is secured and fed to a small model in a private environment. On the other hand, the residual part is sent to fast cloud GPUs, and processed by a large model. To further enhance privacy and reduce the communication cost, Delta applies a random binary quantization technique along with a DP-based technique to the residuals before sharing them with the public platform. We theoretically show that Delta guarantees differential privacy in the public environment and greatly reduces the complexity in the private environment. We conduct empirical analyses on CIFAR-10, CIFAR-100 and ImageNet datasets and ResNet-18 and ResNet-34, showing that Delta achieves strong privacy protection, fast training, and inference without significantly compromising the model utility.
翻訳日:2024-04-02 14:45:23 公開日:2024-03-30
# 逆転学習における初期化の課題

Initialization Matters for Adversarial Transfer Learning ( http://arxiv.org/abs/2312.05716v2 )

ライセンス: Link先を確認
Andong Hua, Jindong Gu, Zhiyu Xue, Nicholas Carlini, Eric Wong, Yao Qin, (参考訳) トランスファーラーニングにおけるプレトレイン・フィネチングのパラダイムの普及に伴い、下流タスクのロバスト性は重要な問題となっている。 本研究では,移動学習における対角的堅牢性について検討し,事前学習されたモデルと線形ヘッドの両方を含む初期化の重要な役割を明らかにする。 まず,逆向きに頑健な事前学習モデルの必要性を明らかにする。 具体的には、標準の事前学習モデルでは、パラメータ効率ファインタニング(PEFT)手法は逆方向の堅牢性に欠けるか、ダウンストリームタスクにおいて、たとえファインタニング中の逆方向のトレーニングであっても、著しく劣化した逆方向の堅牢性を示すことが判明した。 意外なことに、頑健な事前学習モデルを活用することで、単純な線形探索が特定のデータセット上でランダムな初期化を伴い、完全な微調整や他のPEFT法より優れていることが分かる。 さらに, 線形探索は, 頑健な事前学習から頑健性を維持するのに優れていることを確認した。 そこで本稿では, 逆線形探索により得られる重みで線形頭部を初期化し, 事前学習から頑健性を最大限に継承するロバスト線形初期化(RoLI)を提案する。 5つの異なる画像分類データセットにまたがって,RoLIの有効性を実証し,新たな最先端結果を得る。 私たちのコードは \url{https://github.com/DongXzz/RoLI} で利用可能です。

With the prevalence of the Pretraining-Finetuning paradigm in transfer learning, the robustness of downstream tasks has become a critical concern. In this work, we delve into adversarial robustness in transfer learning and reveal the critical role of initialization, including both the pretrained model and the linear head. First, we discover the necessity of an adversarially robust pretrained model. Specifically, we reveal that with a standard pretrained model, Parameter-Efficient Finetuning (PEFT) methods either fail to be adversarially robust or continue to exhibit significantly degraded adversarial robustness on downstream tasks, even with adversarial training during finetuning. Leveraging a robust pretrained model, surprisingly, we observe that a simple linear probing can outperform full finetuning and other PEFT methods with random initialization on certain datasets. We further identify that linear probing excels in preserving robustness from the robust pretraining. Based on this, we propose Robust Linear Initialization (RoLI) for adversarial finetuning, which initializes the linear head with the weights obtained by adversarial linear probing to maximally inherit the robustness from pretraining. Across five different image classification datasets, we demonstrate the effectiveness of RoLI and achieve new state-of-the-art results. Our code is available at \url{https://github.com/DongXzz/RoLI}.
翻訳日:2024-04-02 14:45:23 公開日:2024-03-30
# SKDF:オープンワールドオブジェクト検出器にオープン語彙知識を蒸留するための簡易な知識蒸留フレームワーク

SKDF: A Simple Knowledge Distillation Framework for Distilling Open-Vocabulary Knowledge to Open-world Object Detector ( http://arxiv.org/abs/2312.08653v2 )

ライセンス: Link先を確認
Shuailei Ma, Yuefeng Wang, Ying Wei, Jiaqi Fan, Enming Zhang, Xinyu Sun, Peihao Chen, (参考訳) 本稿では,オープンワールドの知識を言語に依存しない検出器に蒸留することにより,OWODタスクのためのVLMモデルを専門化しようとする。 驚いたことに、OWODにおける単純な \textbf{knowledge distillation} 法と自動擬似ラベル機構の組み合わせは、少量のデータであっても、未知の物体の検出においてより良い性能が得られることが観察された。 残念ながら、未知の物体に対する知識の蒸留は、既知の物体に対する従来の構造を持つ検出器の学習に大きな影響を与え、破滅的な忘れを招いた。 これらの問題を緩和するために、視覚言語から単一視覚モダリティへの知識蒸留のための「textbf{down-weight loss function」を提案する。 一方,未知と未知の物体のカテゴリ間相互作用が局所化学習プロセスに与える影響を低減するために,局所化と認識の学習を分離する「textbf{cascade decouple decoding structure」を提案する。 アブレーション実験は、両者が既知の物体の学習に対するオープンワールドの知識蒸留の影響を緩和するのに有効であることを示した。 さらに、オープン世界の未知の物体を検知するオープンワールド検出器の能力を評価するための、現在の包括的なベンチマークの欠如を緩和するため、テストシナリオの複雑さに基づいて、「\textbf{StandardSet}$\heartsuit$」と「\textbf{IntensiveSet}$\spadesuit$」という2つのベンチマークを提案する。 OWOD, MS-COCO, 提案したベンチマークで実施した総合的な実験により, 提案手法の有効性が示された。 コードと提案されたデータセットは \url{https://github.com/xiaomabufei/SKDF} で公開されている。

In this paper, we attempt to specialize the VLM model for OWOD tasks by distilling its open-world knowledge into a language-agnostic detector. Surprisingly, we observe that the combination of a simple \textbf{knowledge distillation} approach and the automatic pseudo-labeling mechanism in OWOD can achieve better performance for unknown object detection, even with a small amount of data. Unfortunately, knowledge distillation for unknown objects severely affects the learning of detectors with conventional structures for known objects, leading to catastrophic forgetting. To alleviate these problems, we propose the \textbf{down-weight loss function} for knowledge distillation from vision-language to single vision modality. Meanwhile, we propose the \textbf{cascade decouple decoding structure} that decouples the learning of localization and recognition to reduce the impact of category interactions of known and unknown objects on the localization learning process. Ablation experiments demonstrate that both of them are effective in mitigating the impact of open-world knowledge distillation on the learning of known objects. Additionally, to alleviate the current lack of comprehensive benchmarks for evaluating the ability of the open-world detector to detect unknown objects in the open world, we propose two benchmarks, which we name "\textbf{StandardSet}$\heartsuit$" and "\textbf{IntensiveSet}$\spadesuit$" respectively, based on the complexity of their testing scenarios. Comprehensive experiments performed on OWOD, MS-COCO, and our proposed benchmarks demonstrate the effectiveness of our methods. The code and proposed dataset are available at \url{https://github.com/xiaomabufei/SKDF}.
翻訳日:2024-04-02 14:45:23 公開日:2024-03-30
# I'm HOI:3次元物体相互作用の慣性認識単分子キャプチャ

I'M HOI: Inertia-aware Monocular Capture of 3D Human-Object Interactions ( http://arxiv.org/abs/2312.08869v2 )

ライセンス: Link先を確認
Chengfeng Zhao, Juze Zhang, Jiashen Du, Ziwei Shan, Junye Wang, Jingyi Yu, Jingya Wang, Lan Xu, (参考訳) 私たちは、多様な「スマート」デバイスに囲まれた世界に住んでいる。 人間とこれらの物体の相互作用を連続的に捉えることは、いまだに遠く離れている。 本稿では,RGBカメラと物体搭載慣性測定ユニット(IMU)の最小限の量を用いて,人間と物体の3次元運動を忠実に捉えるモノクラースキームI'm-HOIを提案する。 一般的な動き推論とカテゴリー認識の洗練を兼ね備えている。 前者に対しては、IMU信号とRGBストリームを融合させ、段階的に人間の動きを回復し、その後に付随する物体の動きを回復する全体的対象追跡手法を導入する。 後者については、IMUの生観測と前段階の結果の両方をパラメータ化表現の下で条件付けしたカテゴリ対応の運動拡散モデルを調整する。 初期の結果を著しく改善し、鮮やかな身体、手、物体の動きを生成する。 さらに,人間と物体の動き,RGBの高密度入力,およびリッチな物体搭載IMU測定による大規模データセットをコントリビュートする。 広汎な実験は、ハイブリッドキャプチャ環境下でのI'm-HOIの有効性を示す。 私たちのデータセットとコードはコミュニティにリリースされます。

We are living in a world surrounded by diverse and "smart" devices with rich modalities of sensing ability. Conveniently capturing the interactions between us humans and these objects remains far-reaching. In this paper, we present I'm-HOI, a monocular scheme to faithfully capture the 3D motions of both the human and object in a novel setting: using a minimal amount of RGB camera and object-mounted Inertial Measurement Unit (IMU). It combines general motion inference and category-aware refinement. For the former, we introduce a holistic human-object tracking method to fuse the IMU signals and the RGB stream and progressively recover the human motions and subsequently the companion object motions. For the latter, we tailor a category-aware motion diffusion model, which is conditioned on both the raw IMU observations and the results from the previous stage under over-parameterization representation. It significantly refines the initial results and generates vivid body, hand, and object motions. Moreover, we contribute a large dataset with ground truth human and object motions, dense RGB inputs, and rich object-mounted IMU measurements. Extensive experiments demonstrate the effectiveness of I'm-HOI under a hybrid capture setting. Our dataset and code will be released to the community.
翻訳日:2024-04-02 14:45:23 公開日:2024-03-30
# Auto MC-Reward:Minecraft用の大規模言語モデルによるDense Reward設計

Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft ( http://arxiv.org/abs/2312.09238v2 )

ライセンス: Link先を確認
Hao Li, Xue Yang, Zhaokai Wang, Xizhou Zhu, Jie Zhou, Yu Qiao, Xiaogang Wang, Hongsheng Li, Lewei Lu, Jifeng Dai, (参考訳) 多くの強化学習環境(Minecraftなど)は、タスク完了やバイナリ値の失敗を示す粗末な報酬のみを提供する。 このような環境での探索効率の課題は、強化学習に基づくエージェントが複雑なタスクを学ぶのを困難にしている。 そこで本稿では,大規模言語モデル(LLM)を利用して高次報酬関数を自動設計し,学習効率を向上させる,Auto MC-Rewardという高度な学習システムを提案する。 Auto MC-RewardはReward Designer、Reward Critic、Trjectory Analyzerの3つの重要なコンポーネントで構成されている。 環境情報とタスク記述が与えられた後、Reward Designerはまず、事前に定義された観察入力で実行可能なPython関数をコーディングすることで報酬関数を設計する。 そして、Reward Criticはコードを検証し、コードが自己一貫性があり、シンタックスやセマンティックエラーがないかどうかをチェックする責任を負います。 さらに、Trajectory Analyzerは、可能な障害原因を要約し、収集されたトラジェクトリに従って改善提案を提供する。 次のラウンドでは、Reward Designerはフィードバックに基づいてより洗練され、より密集した報酬関数を反復する。 実験は、マインクラフトの複雑な作業におけるエージェントの成功率と学習効率を著しく改善することを示し、例えば、溶岩を回避できる効率的なダイヤモンドを入手し、平原の生物群で疎らな木や動物を効率的に探索するなどである。

Many reinforcement learning environments (e.g., Minecraft) provide only sparse rewards that indicate task completion or failure with binary values. The challenge in exploration efficiency in such environments makes it difficult for reinforcement-learning-based agents to learn complex tasks. To address this, this paper introduces an advanced learning system, named Auto MC-Reward, that leverages Large Language Models (LLMs) to automatically design dense reward functions, thereby enhancing the learning efficiency. Auto MC-Reward consists of three important components: Reward Designer, Reward Critic, and Trajectory Analyzer. Given the environment information and task descriptions, the Reward Designer first design the reward function by coding an executable Python function with predefined observation inputs. Then, our Reward Critic will be responsible for verifying the code, checking whether the code is self-consistent and free of syntax and semantic errors. Further, the Trajectory Analyzer summarizes possible failure causes and provides refinement suggestions according to collected trajectories. In the next round, Reward Designer will further refine and iterate the dense reward function based on feedback. Experiments demonstrate a significant improvement in the success rate and learning efficiency of our agents in complex tasks in Minecraft, such as obtaining diamond with the efficient ability to avoid lava, and efficiently explore trees and animals that are sparse in the plains biome.
翻訳日:2024-04-02 14:45:23 公開日:2024-03-30
# OccNeRF:LiDARフリー環境での3D作業予測の改善

OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments ( http://arxiv.org/abs/2312.09243v2 )

ライセンス: Link先を確認
Chubin Zhang, Juncheng Yan, Yi Wei, Jiaxin Li, Li Liu, Yansong Tang, Yueqi Duan, Jiwen Lu, (参考訳) 視覚に基づく知覚の基本的な課題として、3D占有率予測は周囲環境の3次元構造を再構築する。 自動運転計画とナビゲーションに関する詳細な情報を提供する。 しかし、既存のほとんどの手法は、視覚ベースのシステムでは利用できない占領地真実を生成するために、LiDAR点雲に大きく依存している。 本稿では,OccNeRF法を用いて,3次元の監督なしに占有ネットワークを訓練する手法を提案する。 境界シーンを考慮した従来の作業と異なり、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。 ニューラルレンダリングは、被写界をマルチカメラ深度マップに変換するために採用され、多フレーム光度一貫性によって教師される。 さらに,セマンティック占有予測のために,事前学習したオープン語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。 nuScenes と SemanticKITTI データセット上での自己監督深度推定と 3 次元占有予測の両タスクの広範な実験により,本手法の有効性が示された。

As a fundamental task of vision-based perception, 3D occupancy prediction reconstructs 3D structures of surrounding environments. It provides detailed information for autonomous driving planning and navigation. However, most existing methods heavily rely on the LiDAR point clouds to generate occupancy ground truth, which is not available in the vision-based system. In this paper, we propose an OccNeRF method for training occupancy networks without 3D supervision. Different from previous works which consider a bounded scene, we parameterize the reconstructed occupancy fields and reorganize the sampling strategy to align with the cameras' infinite perceptive range. The neural rendering is adopted to convert occupancy fields to multi-camera depth maps, supervised by multi-frame photometric consistency. Moreover, for semantic occupancy prediction, we design several strategies to polish the prompts and filter the outputs of a pretrained open-vocabulary 2D segmentation model. Extensive experiments for both self-supervised depth estimation and 3D occupancy prediction tasks on nuScenes and SemanticKITTI datasets demonstrate the effectiveness of our method.
翻訳日:2024-04-02 14:45:23 公開日:2024-03-30
# LatentEditor: 3Dシーンのテキスト駆動ローカル編集

LatentEditor: Text Driven Local Editing of 3D Scenes ( http://arxiv.org/abs/2312.09313v3 )

ライセンス: Link先を確認
Umar Khalid, Hasan Iqbal, Nazmul Karim, Jing Hua, Chen Chen, (参考訳) ニューラルフィールドは、ビュー合成とシーン再構成において大きな進歩を遂げてきたが、それらの編集は、多視点入力からの幾何学やテクスチャ情報の暗黙的なエンコーディングのために、非常に難しい課題となっている。 本稿では,テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集をユーザに提供する,革新的なフレームワークである‘textsc{LatentEditor} を紹介する。 拡散モデルを活用することで、現実のシーンを潜在空間に埋め込むことで、従来の方法に比べて高速で適応性の高いNeRFバックボーンが得られる。 編集精度を向上させるため,非関連領域を保存しながら局所修正のためのガイドとして機能する潜伏空間の2次元マスクを計算するデルタスコアを導入する。 InstructPix2Pix (IP2P) のパワーを利用して, 遅延空間におけるIP2P条件と非条件雑音の差を識別する。 2Dマスクに調整された被写体は、トレーニングセットで反復的に更新され、3Dローカル編集が達成される。 提案手法は,既存の3D編集モデルに比べて高速な編集速度と出力品質を実現し,テキスト命令と高品質な3Dシーン編集とのギャップを埋める。 LLFF,IN2N,NeRFStudio,NeRF-Artの4つのベンチマーク3Dデータセットに対するアプローチの優位性を示す。

While neural fields have made significant strides in view synthesis and scene reconstruction, editing them poses a formidable challenge due to their implicit encoding of geometry and texture information from multi-view inputs. In this paper, we introduce \textsc{LatentEditor}, an innovative framework designed to empower users with the ability to perform precise and locally controlled editing of neural fields using text prompts. Leveraging denoising diffusion models, we successfully embed real-world scenes into the latent space, resulting in a faster and more adaptable NeRF backbone for editing compared to traditional methods. To enhance editing precision, we introduce a delta score to calculate the 2D mask in the latent space that serves as a guide for local modifications while preserving irrelevant regions. Our novel pixel-level scoring approach harnesses the power of InstructPix2Pix (IP2P) to discern the disparity between IP2P conditional and unconditional noise predictions in the latent space. The edited latents conditioned on the 2D masks are then iteratively updated in the training set to achieve 3D local editing. Our approach achieves faster editing speeds and superior output quality compared to existing 3D editing models, bridging the gap between textual instructions and high-quality 3D scene editing in latent space. We show the superiority of our approach on four benchmark 3D datasets, LLFF, IN2N, NeRFStudio and NeRF-Art.
翻訳日:2024-04-02 14:35:39 公開日:2024-03-30
# ドメイン一般化セマンティックセマンティックセグメンテーションのためのコラボレーティング基礎モデル

Collaborating Foundation Models for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2312.09788v2 )

ライセンス: Link先を確認
Yasser Benigmim, Subhankar Roy, Slim Essid, Vicky Kalogeiton, Stéphane Lathuilière, (参考訳) ドメイン一般化セマンティックセグメンテーション(Domain Generalized Semantic Segmentation, DGSS)は、推論中に未知のドメインに一般化することを目的としてラベル付きソースドメイン上でモデルをトレーニングする。 既存のDGSS法は一般にドメインランダム化(DR)によってロバストな特徴を発現させる。 このようなアプローチは、内容ではなく、スタイルの多様化のみを考慮できるため、しばしば制限される。 本研究では,DGSSの直交的アプローチを取り入れ,ドメイン一般化セマンティックセマンティックセマンティックセグメンテーション(CLOUDS)のためのコラボレーティブFOUndationモデルの組立を提案する。 詳しくは、CLOUDSは様々な種類のFMを統合するフレームワークである。 (i) 堅牢な特徴表現のためのCLIPバックボーン。 二 内容の多様化のための生成モデルにより、可能な対象分布の様々なモードをカバーし、 三 セグメンテーションモデルの予測を反復的に精錬するためのセグメンション・アプライシング・モデル(SAM) 大規模な実験により、我々のCLOUDSは、合成DGSSベンチマークから実際のDGSSベンチマークへの適応と、様々な気象条件下での適応に優れており、特に平均ミオでは、先行手法の5.6%と6.7%を上回っていることがわかった。 コードはhttps://github.com/yasserben/CLOUDSで入手できる。

Domain Generalized Semantic Segmentation (DGSS) deals with training a model on a labeled source domain with the aim of generalizing to unseen domains during inference. Existing DGSS methods typically effectuate robust features by means of Domain Randomization (DR). Such an approach is often limited as it can only account for style diversification and not content. In this work, we take an orthogonal approach to DGSS and propose to use an assembly of CoLlaborative FOUndation models for Domain Generalized Semantic Segmentation (CLOUDS). In detail, CLOUDS is a framework that integrates FMs of various kinds: (i) CLIP backbone for its robust feature representation, (ii) generative models to diversify the content, thereby covering various modes of the possible target distribution, and (iii) Segment Anything Model (SAM) for iteratively refining the predictions of the segmentation model. Extensive experiments show that our CLOUDS excels in adapting from synthetic to real DGSS benchmarks and under varying weather conditions, notably outperforming prior methods by 5.6% and 6.7% on averaged miou, respectively. The code is available at : https://github.com/yasserben/CLOUDS
翻訳日:2024-04-02 14:35:39 公開日:2024-03-30
# ComplexityNet: タスク複雑度学習によるLLM推論効率の向上

ComplexityNet: Increasing LLM Inference Efficiency by Learning Task Complexity ( http://arxiv.org/abs/2312.11511v2 )

ライセンス: Link先を確認
Henry Bae, Aghyad Deeb, Alex Fleury, Kehang Zhu, (参考訳) 本稿では,タスクの複雑さを評価するために設計された言語モデルであるComplexityNetを紹介する。 このモデルは、様々な言語モデルによる正確な出力の確率を予測し、それぞれ異なる能力を持つ。 ComplexityNetの初期アプリケーションには、MBPP(Mostly Basic Python Problems)データセットが含まれています。 私たちは、タスクの複雑さを定義するために、最初のラベルセットを作成しました。 ComplexityNetは、タスクの複雑さを決定する上で、注目すべき79%の精度を達成した。 さらに、ComplexityNetは、高いコード生成精度を86.7%を維持しながら、最も高い複雑さモデルを使用する場合と比較して、計算リソースの使用量を90%削減する。 本研究は,タスクの複雑性に基づいてタスクを分類する微調整モデルが,大規模言語モデルを用いた場合の精度と効率のバランスのとれたトレードオフにつながることを示した。 この結果から, LLM アプリケーション, 特に資源制約環境において, 最適化に期待できる方向性が示唆された。

We present ComplexityNet, a streamlined language model designed for assessing task complexity. This model predicts the likelihood of accurate output by various language models, each with different capabilities. Our initial application of ComplexityNet involves the Mostly Basic Python Problems (MBPP) dataset. We pioneered the creation of the first set of labels to define task complexity. ComplexityNet achieved a notable 79% accuracy in determining task complexity, a significant improvement over the 34% accuracy of the original, non fine-tuned model. Furthermore, ComplexityNet effectively reduces computational resource usage by 90% compared to using the highest complexity model, while maintaining a high code generation accuracy of 86.7%. This study demonstrates that fine-tuning smaller models to categorize tasks based on their complexity can lead to a more balanced trade-off between accuracy and efficiency in the use of Large Language Models. Our findings suggest a promising direction for optimizing LLM applications, especially in resource-constrained environments.
翻訳日:2024-04-02 14:35:39 公開日:2024-03-30
# 自然言語処理に基づく筋骨格障害危険因子の分類とモード分類

A Natural Language Processing-Based Classification and Mode-Based Ranking of Musculoskeletal Disorder Risk Factors ( http://arxiv.org/abs/2312.11517v3 )

ライセンス: Link先を確認
Md Abrar Jahin, Subrata Talapatra, (参考訳) 本研究は,NLP(Natural Language Processing)とモードベースランキングを併用して,筋骨格障害(MSD)のリスク要因を解明する。 目的は、集中した予防と治療のための理解、分類、優先順位付けを洗練することである。 8つのNLPモデルを評価し、事前訓練されたトランスフォーマー、コサイン類似性、距離メトリクスを組み合わせて、因子を個人、生体力学、職場、心理学、組織クラスに分類する。 コサイン類似度を持つBERTは精度が28%、ユークリッド語、ブレイ・クルティス語、ミンコフスキー語の文変換器は100%である。 10倍のクロスバリデーションでは、統計的テストによって堅牢な結果が得られる。 調査データとモードベースのランキングは、文献と整合して重大度階層を決定する。 「作業姿勢」が最も重く、姿勢の役割を強調している。 調査では、重要な貢献者として「雇用の不安」、「報酬の不均衡」、「従業員の貧困施設」が強調されている。 ランキングはMSD予防のための実用的な洞察を提供する。 この研究は、介入、職場の改善、将来の研究の方向性を示唆している。 この統合NLPとランキングアプローチは、MSDの理解を高め、職業的健康戦略を通知する。

This research delves into Musculoskeletal Disorder (MSD) risk factors, using a blend of Natural Language Processing (NLP) and mode-based ranking. The aim is to refine understanding, classification, and prioritization for focused prevention and treatment. Eight NLP models are evaluated, combining pre-trained transformers, cosine similarity, and distance metrics to categorize factors into personal, biomechanical, workplace, psychological, and organizational classes. BERT with cosine similarity achieves 28% accuracy; sentence transformer with Euclidean, Bray-Curtis, and Minkowski distances scores 100%. With 10-fold cross-validation, statistical tests ensure robust results. Survey data and mode-based ranking determine severity hierarchy, aligning with the literature. "Working posture" is the most severe, highlighting posture's role. Survey insights emphasize "Job insecurity," "Effort reward imbalance," and "Poor employee facility" as significant contributors. Rankings offer actionable insights for MSD prevention. The study suggests targeted interventions, workplace improvements, and future research directions. This integrated NLP and ranking approach enhances MSD comprehension and informs occupational health strategies.
翻訳日:2024-04-02 14:35:39 公開日:2024-03-30
# Open Vocabulary Semantic Scene Sketch Understanding

Open Vocabulary Semantic Scene Sketch Understanding ( http://arxiv.org/abs/2312.12463v2 )

ライセンス: Link先を確認
Ahmed Bourouis, Judith Ellen Fan, Yulia Gryaditskaya, (参考訳) 本研究では,抽象的なフリーハンドシーンスケッチの機械的理解における未探索だが基本的なビジョン問題について検討する。 本研究では,意味的に認識可能な特徴空間を実現するスケッチエンコーダを導入し,その性能を意味的スケッチセグメンテーションタスクでテストすることで評価する。 モデルのトレーニングには、短いキャプションでビットマップのスケッチが利用できることのみを頼りにし、ピクセルレベルのアノテーションを一切必要としません。 スケッチやカテゴリの集合を一般化するために、CLIPモデルで事前訓練されたビジョントランスフォーマーエンコーダを構築した。 我々は、テキストエンコーダを凍結し、視覚エンコーダブランチの視覚的プロンプトチューニングを行い、重要な修正を施した。 まず,従来のキークエリ(k-q)自己アテンションブロックを値値(v-v)自己アテンションブロックで拡張する。 我々のモデルの中心は、効率的なセマンティックな絡み合いを可能にする2階層の階層型ネットワーク設計である: 第一レベルは、全体論的シーンのスケッチエンコーディングを確実にし、第二レベルは、個々のカテゴリに焦点を当てる。 次に、階層の第2のレベルにおいて、テキストと視覚の分岐を相互に関連付けます。 提案手法は,セグメンテーション結果のゼロショットCLIP画素精度を37ポイント向上させ,FS-COCOスケッチデータセットの精度を85.5\%とした。 最後に,シーンスケッチの機械的理解と人間的理解を両立させるため,提案手法のさらなる改良をユーザスタディで確認する。

We study the underexplored but fundamental vision problem of machine understanding of abstract freehand scene sketches. We introduce a sketch encoder that results in semantically-aware feature space, which we evaluate by testing its performance on a semantic sketch segmentation task. To train our model we rely only on the availability of bitmap sketches with their brief captions and do not require any pixel-level annotations. To obtain generalization to a large set of sketches and categories, we build on a vision transformer encoder pretrained with the CLIP model. We freeze the text encoder and perform visual-prompt tuning of the visual encoder branch while introducing a set of critical modifications. Firstly, we augment the classical key-query (k-q) self-attention blocks with value-value (v-v) self-attention blocks. Central to our model is a two-level hierarchical network design that enables efficient semantic disentanglement: The first level ensures holistic scene sketch encoding, and the second level focuses on individual categories. We, then, in the second level of the hierarchy, introduce a cross-attention between textual and visual branches. Our method outperforms zero-shot CLIP pixel accuracy of segmentation results by 37 points, reaching an accuracy of $85.5\%$ on the FS-COCO sketch dataset. Finally, we conduct a user study that allows us to identify further improvements needed over our method to reconcile machine and human understanding of scene sketches.
翻訳日:2024-04-02 14:35:39 公開日:2024-03-30
# NICP: 大規模人間の3次元登録のためのニューラルICP

NICP: Neural ICP for 3D Human Registration at Scale ( http://arxiv.org/abs/2312.14024v2 )

ライセンス: Link先を確認
Riccardo Marin, Enric Corona, Gerard Pons-Moll, (参考訳) 3Dヒューマンポイントクラウドへのテンプレートのアライメントは、アニメーションや再構築、教師付き学習パイプラインの有効化といったタスクにおいて、長年の課題である。 最近のデータ駆動手法は予測された表面の対応を利用するが、様々なポーズ、アイデンティティ、ノイズに対して堅牢ではない。 対照的に、産業ソリューションは高価な手動アノテーションやマルチビューキャプチャシステムに依存していることが多い。 近年、ニューラルフィールドは有望な結果を示している。 それでも、純粋にデータ駆動で外在的な性質は、ターゲット表面へのガイダンスを一切含まないため、テンプレート登録の簡単なミスアライメントが生じることが多い。 現在、ダウンストリームアプリケーションのスケーラビリティを制限し、3Dヒューマン登録の標準と見なす方法はない。 本研究では,数千の形状と10以上の異なるデータソースにまたがる一般化とスケールを行うパイプラインであるNSRを提案する。 我々の重要な貢献は、ICPスタイルの自己教師型タスクであるNICPである。 NICPは数秒で自己管理され、トレーニング済みのニューラルネットワーク上ですぐに動作します。 大規模なMoCapデータセットでトレーニングされた局所的ニューラルネットワークと組み合わせる。 NSRは、公開ベンチマークの最先端を実現し、コードとチェックポイントのリリースにより、データセットアライメントやクリーニング、アセットアニメーションなど、多くの下流タスクに有用な強力なツールがコミュニティに提供する。

Aligning a template to 3D human point clouds is a long-standing problem crucial for tasks like animation, reconstruction, and enabling supervised learning pipelines. Recent data-driven methods leverage predicted surface correspondences; however, they are not robust to varied poses, identities, or noise. In contrast, industrial solutions often rely on expensive manual annotations or multi-view capturing systems. Recently, neural fields have shown promising results. Still, their purely data-driven and extrinsic nature does not incorporate any guidance toward the target surface, often resulting in a trivial misalignment of the template registration. Currently, no method can be considered the standard for 3D Human registration, limiting the scalability of downstream applications. In this work, we propose NSR, a pipeline that, for the first time, generalizes and scales across thousands of shapes and more than ten different data sources. Our essential contribution is NICP, an ICP-style self-supervised task tailored to neural fields. NICP takes a few seconds, is self-supervised, and works out of the box on pre-trained neural fields. We combine it with a localized Neural Field trained on a large MoCap dataset. NSR achieves the state of the art over public benchmarks, and the release of its code and checkpoints will provide the community with a powerful tool useful for many downstream tasks like dataset alignments, cleaning, or asset animation.
翻訳日:2024-04-02 14:35:39 公開日:2024-03-30
# EMAGE:表現型マスドオーディオジェスチャモデリングによる一元的音声合成を目指して

EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling ( http://arxiv.org/abs/2401.00374v5 )

ライセンス: Link先を確認
Haiyang Liu, Zihao Zhu, Giorgio Becherini, Yichen Peng, Mingyang Su, You Zhou, Xuefei Zhe, Naoya Iwamoto, Bo Zheng, Michael J. Black, (参考訳) 本研究では,顔,局所体,手,グローバルな動きを包含する,音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。 そこで我々はまずBEAT2(BEAT-SMPLX-FLAME)を導入した。 BEAT2は、MoShed SMPL-XボディとFLAMEヘッドパラメータを組み合わせることで、頭部、首、指の動きのモデリングをさらに洗練し、コミュニティ標準化された高品質な3Dモーションキャプチャーデータセットを提供する。 EMAGEは、トレーニング中にマスクされたボディジェスチャの事前情報を活用し、推論性能を向上する。 Masked Audio Gesture Transformerが組み込まれており、オーディオとジェスチャーのヒントを効果的にエンコードする。 マスクされたジェスチャーから符号化された身体のヒントは、顔と身体の動きを生成するために別々に使用される。 さらに、EMAGEは音声のリズムと内容から音声特徴を適応的にマージし、4つの合成VQ-VAEを用いて結果の忠実度と多様性を高める。 実験により、EMAGEは最先端の性能を持つ全体的ジェスチャーを生成し、事前定義された空間的時間的ジェスチャー入力を受け入れ、完全な音声同期結果を生成する。 私たちのコードとデータセットはhttps://pantomatrix.github.io/EMAGE/で利用可能です。

We propose EMAGE, a framework to generate full-body human gestures from audio and masked gestures, encompassing facial, local body, hands, and global movements. To achieve this, we first introduce BEAT2 (BEAT-SMPLX-FLAME), a new mesh-level holistic co-speech dataset. BEAT2 combines a MoShed SMPL-X body with FLAME head parameters and further refines the modeling of head, neck, and finger movements, offering a community-standardized, high-quality 3D motion captured dataset. EMAGE leverages masked body gesture priors during training to boost inference performance. It involves a Masked Audio Gesture Transformer, facilitating joint training on audio-to-gesture generation and masked gesture reconstruction to effectively encode audio and body gesture hints. Encoded body hints from masked gestures are then separately employed to generate facial and body movements. Moreover, EMAGE adaptively merges speech features from the audio's rhythm and content and utilizes four compositional VQ-VAEs to enhance the results' fidelity and diversity. Experiments demonstrate that EMAGE generates holistic gestures with state-of-the-art performance and is flexible in accepting predefined spatial-temporal gesture inputs, generating complete, audio-synchronized results. Our code and dataset are available https://pantomatrix.github.io/EMAGE/
翻訳日:2024-04-02 14:35:39 公開日:2024-03-30
# Video-GroundingDINO:オープン語彙の時空間ビデオグラウンド化を目指して

Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding ( http://arxiv.org/abs/2401.00901v2 )

ライセンス: Link先を確認
Syed Talal Wasim, Muzammal Naseer, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan, (参考訳) ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時空間区間をローカライズすることを目的としている。 本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。 限られた訓練データと事前定義された語彙によって、オープン語彙のシナリオに苦しむ一般的なクローズドセットアプローチとは異なり、我々のモデルは基礎的な空間的接地モデルから事前訓練された表現を利用する。 これにより、自然言語と多様な視覚コンテンツの間のセマンティックなギャップを効果的に橋渡しし、クローズドセットとオープンボキャブラリー設定で強力なパフォーマンスを達成することができる。 コントリビューションには、新しい時空間ビデオグラウンドモデル、複数のデータセットに対するクローズドセット評価の最先端結果を上回ること、オープン語彙シナリオにおける優れたパフォーマンスを示すことが含まれる。 提案モデルでは,VidSTG(Declarative and Interrogative)とHC-STVG(V1,V2)データセットのクローズドセット設定において,最先端の手法よりも優れている。 さらに,HC-STVG V1 と YouCook-Interactions のオープン語彙評価では,近年の最高の性能モデルである m_vIoU が4.88$ m_vIoU と $1.83\% の精度を上回り,多種多様な言語的・視覚的概念を扱う上での有効性を示す。 私たちのコードは公開されます。

Video grounding aims to localize a spatio-temporal section in a video corresponding to an input text query. This paper addresses a critical limitation in current video grounding methodologies by introducing an Open-Vocabulary Spatio-Temporal Video Grounding task. Unlike prevalent closed-set approaches that struggle with open-vocabulary scenarios due to limited training data and predefined vocabularies, our model leverages pre-trained representations from foundational spatial grounding models. This empowers it to effectively bridge the semantic gap between natural language and diverse visual content, achieving strong performance in closed-set and open-vocabulary settings. Our contributions include a novel spatio-temporal video grounding model, surpassing state-of-the-art results in closed-set evaluations on multiple datasets and demonstrating superior performance in open-vocabulary scenarios. Notably, the proposed model outperforms state-of-the-art methods in closed-set settings on VidSTG (Declarative and Interrogative) and HC-STVG (V1 and V2) datasets. Furthermore, in open-vocabulary evaluations on HC-STVG V1 and YouCook-Interactions, our model surpasses the recent best-performing models by $4.88$ m_vIoU and $1.83\%$ accuracy, demonstrating its efficacy in handling diverse linguistic and visual concepts for improved video understanding. Our codes will be publicly released.
翻訳日:2024-04-02 14:35:39 公開日:2024-03-30
# フラッグで楽しむ:フラッグマニフォールドによるロバストな主要方向

Fun with Flags: Robust Principal Directions via Flag Manifolds ( http://arxiv.org/abs/2401.04071v2 )

ライセンス: Link先を確認
Nathan Mankovich, Gustau Camps-Valls, Tolga Birdal, (参考訳) 主成分分析(PCA)は、多様体の拡張や外層汚染データとともに、コンピュータビジョンや機械学習では不可欠である。 そこで本研究では,PCAとその変種に対する統一形式を提示し,線形部分空間のフラグに基づくフレームワークを導入する。 分散を最大化するか、再構成誤差を最小化する従来のPCA手法を一般化することから始める。 我々はこれらの解釈を拡張して、外れ値とデータ多様体を考慮し、新しい次元削減アルゴリズムを広範囲に開発する。 共通の計算手法を考案するために、フラグ多様体の最適化問題として、頑健で双対なPCAを再放送する。 次に、このフラグベースのフレームワークに主測地線解析(Tangent-PCA)の接空間近似を組み込み、新しいロバストかつ双対測地線PCAのバリエーションを作成する。 ここで導入された"フラグ化(flagification)"によって提供される顕著な柔軟性は、特定のフラグタイプによって識別される、さらにアルゴリズム的なバリエーションを可能にします。 最後に、Stiefel多様体を用いたこれらのフラグ形式に対する効果的な収束解法を提案する。 実世界のシナリオと合成シナリオの両方に関する実証的な結果から、新しいアルゴリズムの優位性、特に多様体上の外れ値に対するロバスト性を示す。

Principal component analysis (PCA), along with its extensions to manifolds and outlier contaminated data, have been indispensable in computer vision and machine learning. In this work, we present a unifying formalism for PCA and its variants, and introduce a framework based on the flags of linear subspaces, ie a hierarchy of nested linear subspaces of increasing dimension, which not only allows for a common implementation but also yields novel variants, not explored previously. We begin by generalizing traditional PCA methods that either maximize variance or minimize reconstruction error. We expand these interpretations to develop a wide array of new dimensionality reduction algorithms by accounting for outliers and the data manifold. To devise a common computational approach, we recast robust and dual forms of PCA as optimization problems on flag manifolds. We then integrate tangent space approximations of principal geodesic analysis (tangent-PCA) into this flag-based framework, creating novel robust and dual geodesic PCA variations. The remarkable flexibility offered by the 'flagification' introduced here enables even more algorithmic variants identified by specific flag types. Last but not least, we propose an effective convergent solver for these flag-formulations employing the Stiefel manifold. Our empirical results on both real-world and synthetic scenarios, demonstrate the superiority of our novel algorithms, especially in terms of robustness to outliers on manifolds.
翻訳日:2024-04-02 14:25:45 公開日:2024-03-30
# Dr$2$Net: メモリ効率の良いファインタニングのための動的可逆デュアルレジデンシャルネットワーク

Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning ( http://arxiv.org/abs/2401.04105v2 )

ライセンス: Link先を確認
Chen Zhao, Shuming Liu, Karttikeya Mangalam, Guocheng Qian, Fatimah Zohra, Abdulmohsen Alghannam, Jitendra Malik, Bernard Ghanem, (参考訳) 大規模な事前訓練されたモデルは、現代のコンピュータビジョンタスクにおいてますます重要になっている。 これらのモデルは、通常、エンド・ツー・エンドの微調整によって下流のタスクで使用され、高解像度なデータ、例えばビデオ理解、小さなオブジェクト検出、ポイント・クラウド・アナリティクスといったタスクに非常にメモリ集約的である。 本稿では、メモリ消費を大幅に削減した事前学習モデルの微調整を行う代理ネットワークとして機能する新しいネットワークアーキテクチャ群であるDynamic Reversible Dual-Residual Networks(Dr^2$Net)を提案する。 Dr$2$Netは2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆的にする。 可逆性のため、出力から再構成できる中間活性化は、トレーニング中にメモリからクリアされる。 いずれの残差接続にも2つの係数を用いており、より高い数値精度で事前学習されたモデルを可逆ネットワークにシームレスに移行する動的トレーニング戦略を導入する。 各種事前学習モデルと各種タスクについてDr^2$Netを評価し,従来の微調整に匹敵する性能を示すが,メモリ使用量を大幅に削減できることを示す。

Large pretrained models are increasingly crucial in modern computer vision tasks. These models are typically used in downstream tasks by end-to-end finetuning, which is highly memory-intensive for tasks with high-resolution data, e.g., video understanding, small object detection, and point cloud analysis. In this paper, we propose Dynamic Reversible Dual-Residual Networks, or Dr$^2$Net, a novel family of network architectures that acts as a surrogate network to finetune a pretrained model with substantially reduced memory consumption. Dr$^2$Net contains two types of residual connections, one maintaining the residual structure in the pretrained models, and the other making the network reversible. Due to its reversibility, intermediate activations, which can be reconstructed from output, are cleared from memory during training. We use two coefficients on either type of residual connections respectively, and introduce a dynamic training strategy that seamlessly transitions the pretrained model to a reversible network with much higher numerical precision. We evaluate Dr$^2$Net on various pretrained models and various tasks, and show that it can reach comparable performance to conventional finetuning but with significantly less memory usage.
翻訳日:2024-04-02 14:25:45 公開日:2024-03-30
# LLM-as-a-Coauthor: Can Mixed Human-Written and Machine-Generated Text Be Detected?

LLM-as-a-Coauthor: Can Mixed Human-Written and Machine-Generated Text Be Detected? ( http://arxiv.org/abs/2401.05952v2 )

ライセンス: Link先を確認
Qihui Zhang, Chujie Gao, Dongping Chen, Yue Huang, Yixin Huang, Zhenyang Sun, Shilin Zhang, Weiye Li, Zhengyan Fu, Yao Wan, Lichao Sun, (参考訳) LLM(Large Language Models)の急速な開発と普及に伴い、MGT(Machine-Generated Text)の使用はますます一般的になり、特にニュース、教育、科学といった分野における品質と整合性の観点から、潜在的なリスクをもたらしている。 現在の研究は、AI改訂HWT(Human-Written Text)や人修正MGT(Human-Written Text)など、混合シナリオに適切に対処することなく、純粋なMGT検出に焦点を当てている。 この課題に対処するために、AIと人為的コンテンツの両方を含む混合テキストの形式であるmixtextを定義します。 次に、これらのmixtextシナリオを研究するための最初のデータセットであるMixSetを紹介します。 MixSet を利用した総合的な実験を行い,その有効性,堅牢性,一般化性について検討した。 既存の検出器はミックステキストの識別に苦慮しており、特に微妙な修正やスタイル適応性に対処している。 この研究は、ミックステキストに適した細粒度検出器の緊急ニーズを強調し、将来の研究に有用な洞察を提供する。 コードとモデルはhttps://github.com/Dongping-Chen/MixSet.comで入手できる。

With the rapid development and widespread application of Large Language Models (LLMs), the use of Machine-Generated Text (MGT) has become increasingly common, bringing with it potential risks, especially in terms of quality and integrity in fields like news, education, and science. Current research mainly focuses on purely MGT detection without adequately addressing mixed scenarios, including AI-revised Human-Written Text (HWT) or human-revised MGT. To tackle this challenge, we define mixtext, a form of mixed text involving both AI and human-generated content. Then, we introduce MixSet, the first dataset dedicated to studying these mixtext scenarios. Leveraging MixSet, we executed comprehensive experiments to assess the efficacy of prevalent MGT detectors in handling mixtext situations, evaluating their performance in terms of effectiveness, robustness, and generalization. Our findings reveal that existing detectors struggle to identify mixtext, particularly in dealing with subtle modifications and style adaptability. This research underscores the urgent need for more fine-grain detectors tailored for mixtext, offering valuable insights for future research. Code and Models are available at https://github.com/Dongping-Chen/MixSet.
翻訳日:2024-04-02 14:25:45 公開日:2024-03-30
# 推論のトポロジー:思考の連鎖、木、グラフのデミスティフィケーション

Topologies of Reasoning: Demystifying Chains, Trees, and Graphs of Thoughts ( http://arxiv.org/abs/2401.14295v2 )

ライセンス: Link先を確認
Maciej Besta, Florim Memedi, Zhenyu Zhang, Robert Gerstenberger, Guangyuan Piao, Nils Blach, Piotr Nyczyk, Marcin Copik, Grzegorz Kwaśniewski, Jürgen Müller, Lukas Gianinazzi, Ales Kubicek, Hubert Niewiadomski, Aidan O'Mahony, Onur Mutlu, Torsten Hoefler, (参考訳) 自然言語処理(NLP)の分野は近年大きく進歩しており、革新的なプロンプト技術による大規模言語モデル(LLM)のパフォーマンス向上に特化している。 これらのうち、構造と組み合わされた素早いエンジニアリングは有望なパラダイムとして現れており、図のような構造によってLLM推論全体を導出するChain-of-Thought、Tree of Thoughts、Graph of Thoughtsといった設計がされている。 多くの例で説明されているように、このパラダイムは論理的、数学的推論から計画的、創造的執筆まで、多くのタスクを解くLLMの能力を著しく向上させる。 そこで我々は, この成長分野の理解を深め, 今後の発展への道を開くために, LLM推論を効果的かつ効率的に行うための一般的な青写真を作成する。 そこで我々は,実行パイプラインの詳細な解析を行い,異なる概念を明確にし,明確に定義する。 次に、構造強化LPM推論スキームの最初の分類法を構築する。 我々は,活用構造の基本クラスを同定することに集中し,これらの構造,それらの構造を用いて実行されるアルゴリズム,その他多くのことを解析する。 これらの構造を推論トポロジー(英語版)と呼び、それらの表現は LLM の文脈に含まれるため、空間の次数へと変化する。 本研究は,提案した分類法を用いて既存のプロンプト方式と比較し,特定の設計選択が性能とコストの異なるパターンにどのように寄与するかを論じる。 また、理論的基盤、知識ベースなどのLLMエコシステムの他の部分との関係、関連する研究課題についても概説する。 私たちの仕事は、将来の急進的なエンジニアリング技術の進歩に役立ちます。

The field of natural language processing (NLP) has witnessed significant progress in recent years, with a notable focus on improving large language models' (LLM) performance through innovative prompting techniques. Among these, prompt engineering coupled with structures has emerged as a promising paradigm, with designs such as Chain-of-Thought, Tree of Thoughts, or Graph of Thoughts, in which the overall LLM reasoning is guided by a structure such as a graph. As illustrated with numerous examples, this paradigm significantly enhances the LLM's capability to solve numerous tasks, ranging from logical or mathematical reasoning to planning or creative writing. To facilitate the understanding of this growing field and pave the way for future developments, we devise a general blueprint for effective and efficient LLM reasoning schemes. For this, we conduct an in-depth analysis of the prompt execution pipeline, clarifying and clearly defining different concepts. We then build the first taxonomy of structure-enhanced LLM reasoning schemes. We focus on identifying fundamental classes of harnessed structures, and we analyze the representations of these structures, algorithms executed with these structures, and many others. We refer to these structures as reasoning topologies, because their representation becomes to a degree spatial, as they are contained within the LLM context. Our study compares existing prompting schemes using the proposed taxonomy, discussing how certain design choices lead to different patterns in performance and cost. We also outline theoretical underpinnings, relationships between prompting and other parts of the LLM ecosystem such as knowledge bases, and the associated research challenges. Our work will help to advance future prompt engineering techniques.
翻訳日:2024-04-02 14:25:45 公開日:2024-03-30
# リモートセンシングとディープラーニング技術によって実現された迅速なインフラストラクチャ障害の特徴化 -- 階層的アプローチ

Rapid post-disaster infrastructure damage characterisation enabled by remote sensing and deep learning technologies -- a tiered approach ( http://arxiv.org/abs/2401.17759v3 )

ライセンス: Link先を確認
Nadiia Kopiika, Andreas Karavias, Pavlos Krassakis, Zehao Ye, Jelena Ninic, Nataliya Shakhovska, Nikolaos Koukouzas, Sotirios Argyroudis, Stergios-Aristoteles Mitoulis, (参考訳) 重要なインフラは、人や商品の接続と輸送を可能にするために不可欠であるため、戦争や大規模な自然災害の間、体系的に標的となっている。 輸送資産の大量破壊は、自然災害や人為的災害によるアクセシビリティの低下と相まって、迅速な回復と適応を妨げます。 この課題の解決策は、スタンドオフ観察を可能にする技術を使用することである。 しかし, 地域, 資産, 構造規模など複数スケールの被害評価を総合的に評価する手法は存在せず, インフラ被害評価の体系的相関は存在しない。 本稿では,この能力ギャップを埋めるために,統合されたマルチスケール階層型アプローチに基づく方法論を提案する。 そこで本研究では,デジタル技術の適合により,損傷特性化が実現可能であることを実証する。 次に、この手法をウクライナのケーススタディに適用し、人間を標的とした介入によって17の橋が損傷するケーススタディに検証する。 マクロからマイクロまで、Sentinel-1 SAR画像、クラウドソース情報、高解像度画像からインフラの損傷を特徴付けるためのディープラーニングまで、大規模に評価を統合する技術を展開する。 画像の相互干渉的コヒーレンス差とセマンティックセグメンテーションは, 地域, インフラ資産, コンポーネントなど, 損傷特性の信頼性を向上させるために初めて展開された。 この統合されたアプローチは意思決定を加速し、より効率的な復元と適応作業を促進し、最終的にはインフラストラクチャへのレジリエンスを促進します。

Critical infrastructure are systematically targeted during wars and extensive natural disasters because critical infrastructure is vital for enabling connectivity and transportation of people and goods, and hence, underpins national and international economic growth. Mass destruction of transport assets, in conjunction with minimal or no accessibility in the wake of natural and anthropogenic disasters, prevents us from delivering rapid recovery and adaptation. A solution to this challenge is to use technology that enables stand-off observations. Nevertheless, no methods exist for the integrated characterisation of damage at multiple scales, i.e. regional, asset, and structural scales, while there is no systematic correlation between infrastructure damage assessments across these scales. We propose a methodology based on an integrated multi-scale tiered approach to fill this capability gap. In doing so, we demonstrate how damage characterisation can be enabled by fit-for-purpose digital technologies. Next, the methodology is applied and validated to a case study in Ukraine that includes 17 bridges all damages by human targeted interventions. From macro to micro, we deploy technology to integrate assessments at scale, using from Sentinel-1 SAR images, crowdsourced information, and high-resolution images to deep learning to characterise infrastructure damage. For the first time, the interferometric coherence difference and semantic segmentation of images were deployed to improve the reliability of damage characterisations at different scales, i.e. regional, infrastructure asset and component, with the aim of enhancing the damage characterisation accuracy. This integrated approach accelerates decision-making, and therefore, facilitates more efficient restoration and adaptation efforts, ultimately fostering resilience into our infrastructure.
翻訳日:2024-04-02 14:15:46 公開日:2024-03-30
# アンロックされた犯罪階層:犯罪ネットワーク内のリーダーを特定するための技術の調査、実験、比較検討

Unlocking Criminal Hierarchies: A Survey, Experimental, and Comparative Exploration of Techniques for Identifying Leaders within Criminal Networks ( http://arxiv.org/abs/2402.03355v2 )

ライセンス: Link先を確認
Kamal Taha, Abdulhadi Shoufan, Aya Taha, (参考訳) 本調査では,犯罪ネットワーク内の犯罪指導者の識別に使用される手法とアルゴリズムを網羅的に分析する。 それぞれの技術について,その有効性,限界,改善の可能性,今後の展望について検討する。 犯罪のリーダーを特定し、犯罪を予測するアルゴリズムに焦点を当てた既存の調査論文が直面している主な課題は、これらのアルゴリズムを効果的に分類することである。 そこで本研究では,アルゴリズムを階層的により詳細なカテゴリと特定のテクニックに分類する手法を新たに提案する。 本論文は、異なるテクニックをランク付けするための実証的および実験的評価を含む。 方法論の分類学、経験的評価、実験的な比較の組み合わせは、犯罪指導者を識別する技術とアルゴリズムの微妙で包括的な理解を可能にし、研究者が情報的な決定を下すのを助ける。 さらに,本論文は,犯罪指導者の特定技術や今後の研究の可能性を強調し,今後の展望について貴重な知見を提供する。 1)PageRankとEigenvector中心性はネットワーク接続のマッピングに信頼性があり、(2)Katz Centralityは間接リンクを通じて影響力のある犯罪者を効果的に識別し、刑事ネットワークにおいてその重要性を強調し、(3)現在のモデルは犯罪の影響レベル、社会経済的文脈の重要性、および犯罪ネットワークと階層の動的性質を考慮せず、(4)時間的ダイナミクスと感情分析を取り入れて犯罪活動と関係の流動性を反映する拡張を提案する。

This survey paper offers a thorough analysis of techniques and algorithms used in the identification of crime leaders within criminal networks. For each technique, the paper examines its effectiveness, limitations, potential for improvement, and future prospects. The main challenge faced by existing survey papers focusing on algorithms for identifying crime leaders and predicting crimes is effectively categorizing these algorithms. To address this limitation, this paper proposes a new methodological taxonomy that hierarchically classifies algorithms into more detailed categories and specific techniques. The paper includes empirical and experimental evaluations to rank the different techniques. The combination of the methodological taxonomy, empirical evaluations, and experimental comparisons allows for a nuanced and comprehensive understanding of the techniques and algorithms for identifying crime leaders, assisting researchers in making informed decisions. Moreover, the paper offers valuable insights into the future prospects of techniques for identifying crime leaders, emphasizing potential advancements and opportunities for further research. Here's an overview of our empirical analysis findings and experimental insights, along with the solution we've devised: (1) PageRank and Eigenvector centrality are reliable for mapping network connections, (2) Katz Centrality can effectively identify influential criminals through indirect links, stressing their significance in criminal networks, (3) current models fail to account for the specific impacts of criminal influence levels, the importance of socio-economic context, and the dynamic nature of criminal networks and hierarchies, and (4) we propose enhancements, such as incorporating temporal dynamics and sentiment analysis to reflect the fluidity of criminal activities and relationships
翻訳日:2024-04-02 14:15:46 公開日:2024-03-30
# アタックネット: 生体認証のための階層型畳み込みニューラルネットワークアーキテクチャによるバイオメトリックセキュリティの強化

AttackNet: Enhancing Biometric Security via Tailored Convolutional Neural Network Architectures for Liveness Detection ( http://arxiv.org/abs/2402.03769v2 )

ライセンス: Link先を確認
Oleksandr Kuznetsov, Dmytro Zakharov, Emanuele Frontoni, Andrea Maranesi, (参考訳) バイオメトリック・セキュリティは、バイオメトリック・サンプルの完全性と信頼性が最重要となる、現代のアイデンティティ認証と認証システムの基盤となっている。 本稿では,バイオメトリックシステムにおけるスプーフィング脅威に対処するように設計された,目覚ましい畳み込みニューラルネットワークアーキテクチャであるAttackNetを紹介する。 ディープラーニングの手法を取り入れたこのモデルは,低レベルの特徴抽出から高レベルのパターン識別へシームレスに移行する,階層化された防御機構を提供する。 3つの特徴的なアーキテクチャフェーズがモデルの要点を形成し、それぞれが司法的に選択されたアクティベーション関数、正規化テクニック、およびドロップアウト層によって支えられ、敵の攻撃に対する堅牢性とレジリエンスを確保する。 多様なデータセットにまたがってモデルをベンチマークすることは、その長所を証明し、現代のモデルと比較して優れたパフォーマンス指標を示す。 さらに、詳細な比較分析はモデルの有効性をアクセントし、最先端の手法と平行に描画する。 反復的な洗練とアーキテクチャ戦略を通じて、AttackNetはバイオメトリックセキュリティの未来を守るためのディープラーニングの可能性を強調している。

Biometric security is the cornerstone of modern identity verification and authentication systems, where the integrity and reliability of biometric samples is of paramount importance. This paper introduces AttackNet, a bespoke Convolutional Neural Network architecture, meticulously designed to combat spoofing threats in biometric systems. Rooted in deep learning methodologies, this model offers a layered defense mechanism, seamlessly transitioning from low-level feature extraction to high-level pattern discernment. Three distinctive architectural phases form the crux of the model, each underpinned by judiciously chosen activation functions, normalization techniques, and dropout layers to ensure robustness and resilience against adversarial attacks. Benchmarking our model across diverse datasets affirms its prowess, showcasing superior performance metrics in comparison to contemporary models. Furthermore, a detailed comparative analysis accentuates the model's efficacy, drawing parallels with prevailing state-of-the-art methodologies. Through iterative refinement and an informed architectural strategy, AttackNet underscores the potential of deep learning in safeguarding the future of biometric security.
翻訳日:2024-04-02 14:15:46 公開日:2024-03-30
# Webナビゲーションのためのデュアルビュービジュアルコンテクスト化

Dual-View Visual Contextualization for Web Navigation ( http://arxiv.org/abs/2402.04476v2 )

ライセンス: Link先を確認
Jihyung Kil, Chan Hee Song, Boyuan Zheng, Xiang Deng, Yu Su, Wei-Lun Chao, (参考訳) 自動Webナビゲーションは、言語命令に従って現実世界のウェブサイトで複雑で多様なタスクを実行するWebエージェントを構築することを目的としている。 既存の作業は、主にHTMLドキュメントを入力として取り、Webページのコンテンツとアクション空間(つまり実行可能な要素と操作)を定義する。 それにもかかわらず、HTMLドキュメントは各要素に対して明確なタスク関連コンテキストを提供していないため、正しい(順序の)アクションを選択するのが困難である。 本稿では,Webページのスクリーンショットにおいて,各HTML要素が対応するバウンディングボックスとスクリーンショット内の視覚的コンテンツを持つ「デュアルビュー」を通じて,HTML要素をコンテキスト化することを提案する。 Web開発者は、Webページの近くにあるタスク関連の要素を配置してユーザエクスペリエンスを向上させる傾向があり、テキストとビジュアルの両方の機能を使って、各要素をその隣の要素でコンテキスト化することを提案します。 結果として生じるHTML要素の表現は、エージェントがアクションを取るためのより情報的です。 我々は最近リリースされたMind2Webデータセット上で,実際のWebサイト上で多様なナビゲーションドメインとタスクを特徴付ける手法を検証する。 提案手法は,クロスタスク,クロスWebサイト,クロスドメインなど,すべてのシナリオにおいて一貫してベースラインを上回ります。

Automatic web navigation aims to build a web agent that can follow language instructions to execute complex and diverse tasks on real-world websites. Existing work primarily takes HTML documents as input, which define the contents and action spaces (i.e., actionable elements and operations) of webpages. Nevertheless, HTML documents may not provide a clear task-related context for each element, making it hard to select the right (sequence of) actions. In this paper, we propose to contextualize HTML elements through their "dual views" in webpage screenshots: each HTML element has its corresponding bounding box and visual content in the screenshot. We build upon the insight -- web developers tend to arrange task-related elements nearby on webpages to enhance user experiences -- and propose to contextualize each element with its neighbor elements, using both textual and visual features. The resulting representations of HTML elements are more informative for the agent to take action. We validate our method on the recently released Mind2Web dataset, which features diverse navigation domains and tasks on real-world websites. Our method consistently outperforms the baseline in all the scenarios, including cross-task, cross-website, and cross-domain ones.
翻訳日:2024-04-02 14:15:46 公開日:2024-03-30
# Mamba-UNet: 医用画像セグメンテーションのためのUNetライクな純視覚マンバ

Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation ( http://arxiv.org/abs/2402.05079v2 )

ライセンス: Link先を確認
Ziyang Wang, Jian-Qing Zheng, Yichi Zhang, Ge Cui, Lei Li, (参考訳) 医療画像解析の最近の進歩の中で、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は重要なベンチマークを設定している。 前者は畳み込み操作による局所的特徴の捕捉に長けているが、後者は自己認識機構を活用することで、目覚ましいグローバルな文脈理解を実現している。 しかし、どちらのアーキテクチャも、正確なセグメンテーションにおいて重要な側面である医用画像内の長距離依存関係を効率的にモデル化する際の限界を示す。 SSM(State Space Model)として計算効率を向上した長いシーケンスやグローバルなコンテキスト情報を扱う能力で知られるMambaアーキテクチャに触発されて,Mamba-UNetを提案する。 Mamba-UNetは純粋にVisual Mamba(VMamba)ベースのエンコーダデコーダ構造を採用しており、ネットワークのさまざまなスケールで空間情報を保存するためにスキップ接続を注入している。 このデザインは包括的特徴学習プロセスを促進し、複雑な詳細と医療画像内のより広い意味的コンテキストをキャプチャする。 我々は,エンコーダとデコーダの経路間のシームレスな接続と情報フローを確保するため,VMambaブロック内に新たな統合機構を導入し,セグメンテーション性能を向上させる。 今回我々は,ACDC MRI心磁区データセットとSynapse CT腹水区データセットについて実験を行った。 その結果,Mamba-UNetは,同じハイパーパラメータ設定下での医用画像のセグメンテーションにおいて,複数の種類のUNetよりも優れていた。 ソースコードとベースラインの実装が利用可能だ。

In recent advancements in medical image analysis, Convolutional Neural Networks (CNN) and Vision Transformers (ViT) have set significant benchmarks. While the former excels in capturing local features through its convolution operations, the latter achieves remarkable global context understanding by leveraging self-attention mechanisms. However, both architectures exhibit limitations in efficiently modeling long-range dependencies within medical images, which is a critical aspect for precise segmentation. Inspired by the Mamba architecture, known for its proficiency in handling long sequences and global contextual information with enhanced computational efficiency as a State Space Model (SSM), we propose Mamba-UNet, a novel architecture that synergizes the U-Net in medical image segmentation with Mamba's capability. Mamba-UNet adopts a pure Visual Mamba (VMamba)-based encoder-decoder structure, infused with skip connections to preserve spatial information across different scales of the network. This design facilitates a comprehensive feature learning process, capturing intricate details and broader semantic contexts within medical images. We introduce a novel integration mechanism within the VMamba blocks to ensure seamless connectivity and information flow between the encoder and decoder paths, enhancing the segmentation performance. We conducted experiments on publicly available ACDC MRI Cardiac segmentation dataset, and Synapse CT Abdomen segmentation dataset. The results show that Mamba-UNet outperforms several types of UNet in medical image segmentation under the same hyper-parameter setting. The source code and baseline implementations are available.
翻訳日:2024-04-02 14:15:46 公開日:2024-03-30
# 安全なマルチモーダル学習システムに関する調査研究

A Survey on Safe Multi-Modal Learning System ( http://arxiv.org/abs/2402.05355v3 )

ライセンス: Link先を確認
Tianyi Zhao, Liangliang Zhang, Yao Ma, Lu Cheng, (参考訳) 人工知能の急速な発展の中で、マルチモーダル学習システム(MMLS)は、様々なモーダル入力から情報を処理し統合する能力によって、注目を集めている。 医療などの重要な分野での利用が拡大し、安全保証が重要な関心事となっている。 しかし、その安全性に関する体系的な研究が欠如していることは、この分野の進歩にとって重要な障壁である。 このギャップを埋めるために,MMLSの安全性を体系的に分類し評価する最初の分類法を提案する。 この分類は、MMLSの安全性を保証するために重要な4つの基本的な柱、すなわち堅牢性、アライメント、監視、制御性に基づいて構成されている。 この分類を活用して、既存の方法論、ベンチマーク、研究の現状をレビューするとともに、知識の主な限界とギャップを指摘します。 最後に,MMLSの安全性に関するユニークな課題について論じる。 これらの課題を明らかにするために,我々は今後の研究の道を開くことを目指しており,MMLSの安全性プロトコルの大幅な進歩につながる可能性のある潜在的方向性を提案する。

In the rapidly evolving landscape of artificial intelligence, multimodal learning systems (MMLS) have gained traction for their ability to process and integrate information from diverse modality inputs. Their expanding use in vital sectors such as healthcare has made safety assurance a critical concern. However, the absence of systematic research into their safety is a significant barrier to progress in this field. To bridge the gap, we present the first taxonomy that systematically categorizes and assesses MMLS safety. This taxonomy is structured around four fundamental pillars that are critical to ensuring the safety of MMLS: robustness, alignment, monitoring, and controllability. Leveraging this taxonomy, we review existing methodologies, benchmarks, and the current state of research, while also pinpointing the principal limitations and gaps in knowledge. Finally, we discuss unique challenges in MMLS safety. In illuminating these challenges, we aim to pave the way for future research, proposing potential directions that could lead to significant advancements in the safety protocols of MMLS.
翻訳日:2024-04-02 14:15:46 公開日:2024-03-30
# Right or Wrong -- 初心者のソフトウェアモデルの記述方法を理解する

Right or Wrong -- Understanding How Novice Users Write Software Models ( http://arxiv.org/abs/2402.06624v3 )

ライセンス: Link先を確認
Ana Jovanovic, Allison Sullivan, (参考訳) 宣言型モデルの記述には,システム構築前の自動推論や設計レベルのプロパティの修正,ビルド後の実装の自動テストとデバッグなど,数多くのメリットがある。 Alloyは宣言型モデリング言語であり、システム設計を検証するのに適しています。 Alloyの重要な強みは、そのシナリオフィニングツールセットであるAnalyzerである。 しかし、視覚化されたシナリオであっても、正しい合金モデルを書くのは難しい。 これを解決するために、成長する研究機関は、アロイモデルをデバッグする様々なテクニックを探求する。 そこで本研究では,アロイを学習しようとする初心者が作成した97,000以上のモデルについて,実証的研究を行った。 本研究は,アロイモデル開発におけるデバッグと教育の取り組みをガイドする一連の観察とともに,ユーザが将来使用するための総合的なベンチマークを作成するために,正しいモデルと間違ったモデルの両方を書く方法について考察する。

Writing declarative models has numerous benefits, ranging from automated reasoning and correction of design-level properties before systems are built, to automated testing and debugging of their implementations after they are built. Alloy is a declarative modeling language that is well-suited for verifying system designs. A key strength of Alloy is its scenario-finding toolset, the Analyzer, which allows users to explore all valid scenarios that adhere to the model's constraints up to a user-provided scope. However, even with visualized scenarios, it is difficult to write correct Alloy models. To address this, a growing body of work explores different techniques for debugging Alloy models. In order to develop and evaluate these techniques in an effective manor, this paper presents an empirical study of over 97,000 models written by novice users trying to learn Alloy. We investigate how users write both correct and incorrect models in order to produce a comprehensive benchmark for future use as well as a series of observations to guide debugging and educational efforts for Alloy model development.
翻訳日:2024-04-02 14:15:46 公開日:2024-03-30
# X-LoRA:タンパク質力学と分子設計に応用した大規模言語モデルのためのフレキシブルフレームワーク、低ランク適応専門家の混在

X-LoRA: Mixture of Low-Rank Adapter Experts, a Flexible Framework for Large Language Models with Applications in Protein Mechanics and Molecular Design ( http://arxiv.org/abs/2402.07148v2 )

ライセンス: Link先を確認
Eric L. Buehler, Markus J. Buehler, (参考訳) 低ランク適応(LoRA)に基づくディープ・レイヤ・ワイド・トークン・レベル・アプローチを用いて、微調整された大規模言語モデルを作成するための専門家戦略の混合を報告する。 事前訓練されたLoRAアダプタのセットから始めると、ゲーティング戦略は隠れ状態を使って動的に適応されたレイヤを混合し、その結果のX-LoRAモデルを異なる機能に描画し、タスクを解くためにこれまで使用されていなかったディープレイヤの組合せを生成する。 このデザインは、ニューラルネットワーク構築ブロックをさまざまな階層的な表現で再利用する、普遍性と多様性の生物学的原則にインスパイアされている。 したがって、X-LoRAモデルは、基盤構造の変更を必要とせずに、既存の大きな言語モデル(LLM)に対して容易に実装できる。 我々は, バイオマテリアル分析, タンパク質力学, 設計に焦点をあてた, フォワード/逆解析タスク, 推論能力の強化など, 科学的能力を提供するX-LoRAモデルを開発した。 この作業の影響には、強力なドメイン知識を持つ容易に拡張可能で適応可能なモデルへのアクセスや、知識の領域間で統合する能力が含まれる。 生物学、数学、推論、バイオインスパイアされた材料、力学と材料、化学、タンパク質の生物物理学、力学、量子力学に基づく分子特性の専門家がおり、一連の物理学に焦点を当てたケーススタディを実施している。 本稿では, 知識リコール, タンパク質メカニックフォワード/逆タスク, タンパク質設計, 存在論的知識グラフ構築を含む逆エージェントモデリング, および分子設計について検討する。 このモデルは、タンパク質のナノメカニカル特性や量子力学的分子特性の定量的な予測を行うだけでなく、結果に対する理由や、異なる分子の挙動を説明するメカニズムを正確に予測することができる。

We report a mixture of expert strategy to create fine-tuned large language models using a deep layer-wise token-level approach based on low-rank adaptation (LoRA). Starting with a set of pre-trained LoRA adapters, our gating strategy uses the hidden states to dynamically mix adapted layers, allowing the resulting X-LoRA model to draw upon different capabilities and create never-before-used deep layer-wise combinations to solve tasks. The design is inspired by the biological principles of universality and diversity, where neural network building blocks are reused in different hierarchical manifestations. Hence, the X-LoRA model can be easily implemented for any existing large language model (LLM) without a need for modifications of the underlying structure. We develop a tailored X-LoRA model that offers scientific capabilities including forward/inverse analysis tasks and enhanced reasoning capability, focused on biomaterial analysis, protein mechanics and design. The impact of this work include access to readily expandable and adaptable models with strong domain knowledge and the capability to integrate across areas of knowledge. Featuring experts in biology, mathematics, reasoning, bio-inspired materials, mechanics and materials, chemistry, protein biophysics, mechanics and quantum-mechanics based molecular properties, we conduct a series of physics-focused case studies. We examine knowledge recall, protein mechanics forward/inverse tasks, protein design, adversarial agentic modeling including ontological knowledge graph construction, as well as molecular design. The model is capable not only of making quantitative predictions of nanomechanical properties of proteins or quantum mechanical molecular properties, but also reasons over the results and correctly predicts likely mechanisms that explain distinct molecular behaviors.
翻訳日:2024-04-02 14:15:46 公開日:2024-03-30
# 不均一剤の相対的性能基準下での最適投資のための深層学習法

A Deep Learning Method for Optimal Investment Under Relative Performance Criteria Among Heterogeneous Agents ( http://arxiv.org/abs/2402.07365v2 )

ライセンス: Link先を確認
Mathieu Laurière, Ludovic Tangpi, Xuchen Zhou, (参考訳) グラフゲームは、重み付けされた相互作用グラフを通して相互作用する多くのプレイヤーとゲームを研究するために導入された。 制限に渡すことにより、プレイヤーの連続したゲームが得られ、その相互作用はグラノンを介して行われる。 本稿では,相対的な性能基準下での最適投資を目的としたグラフゲームに着目し,深層学習手法を提案する。 この手法は,前向き確率微分方程式によるナッシュ平衡のキャラクタリゼーションと,確率微分ゲームのための機械学習アルゴリズムの最近の進歩の2つの重要な要素の上に構築されている。 2つの異なる金融モデルに関する数値実験を行う。 各モデルにおいて、相互作用の異なる構造に対応するいくつかのグラノンの効果を比較する。

Graphon games have been introduced to study games with many players who interact through a weighted graph of interaction. By passing to the limit, a game with a continuum of players is obtained, in which the interactions are through a graphon. In this paper, we focus on a graphon game for optimal investment under relative performance criteria, and we propose a deep learning method. The method builds upon two key ingredients: first, a characterization of Nash equilibria by forward-backward stochastic differential equations and, second, recent advances of machine learning algorithms for stochastic differential games. We provide numerical experiments on two different financial models. In each model, we compare the effect of several graphons, which correspond to different structures of interactions.
翻訳日:2024-04-02 14:15:46 公開日:2024-03-30
# 組み込みシステムにおける3Dポイントクラウド処理のためのCUDAを用いたGPU上のスパース畳み込みの最適化

Optimizing Sparse Convolution on GPUs with CUDA for 3D Point Cloud Processing in Embedded Systems ( http://arxiv.org/abs/2402.07710v2 )

ライセンス: Link先を確認
Chester Luo, Kevin Lai, (参考訳) 近年、画像解析や処理などの構造化グリッドデータを含む様々な領域において、特に畳み込みニューラルネットワーク(CNN)が主流となっているディープラーニング手法の利用が著しく増加している。 しかし、LiDARと3Dセンサーの利用が多くの領域で指数関数的に増加し、3D点雲の分析の必要性が高まっている。 3次元点雲の利用は、物体認識やセグメンテーションなどの様々な用途において重要である。 写真とは対照的に、点雲は空間性を示し、正規の格子を持たないため、異なる処理と計算上の問題を引き起こす。

In recent years, there has been a significant increase in the utilization of deep learning methods, particularly convolutional neural networks (CNNs), which have emerged as the dominant approach in various domains that involve structured grid data, such as picture analysis and processing. Nevertheless, the exponential growth in the utilization of LiDAR and 3D sensors across many domains has resulted in an increased need for the analysis of 3D point clouds. The utilization of 3D point clouds is crucial in various applications, including object recognition and segmentation, as they offer a spatial depiction of things within a three-dimensional environment. In contrast to photos, point clouds exhibit sparsity and lack a regular grid, hence posing distinct processing and computational issues.
翻訳日:2024-04-02 14:04:28 公開日:2024-03-30
# 力学系における実験設計のためのネスティング粒子フィルタ

Nesting Particle Filters for Experimental Design in Dynamical Systems ( http://arxiv.org/abs/2402.07868v3 )

ライセンス: Link先を確認
Sahel Iqbal, Adrien Corenflos, Simo Särkkä, Hany Abdulsamad, (参考訳) 本稿では,リスクに敏感な政策最適化として定式化した非交換可能データに対するベイズ実験設計手法を提案する。 Inside-Out SMC\textsuperscript{2} アルゴリズムを開発し、最適設計を推測するネスト付きシーケンシャルモンテカルロ法を開発し、それを粒子マルコフ連鎖モンテカルロフレームワークに埋め込み、勾配に基づくポリシーのアモート化を行う。 提案手法は, コントラスト推定器に頼らないため, 他のアモータイズされた実験設計手法と異なる。 一連の力学系の数値検証は,他の最先端戦略と比較して,本手法の有効性を示す。

In this paper, we propose a novel approach to Bayesian experimental design for non-exchangeable data that formulates it as risk-sensitive policy optimization. We develop the Inside-Out SMC\textsuperscript{2} algorithm, a nested sequential Monte Carlo technique to infer optimal designs, and embed it into a particle Markov chain Monte Carlo framework to perform gradient-based policy amortization. Our approach is distinct from other amortized experimental design techniques, as it does not rely on contrastive estimators. Numerical validation on a set of dynamical systems showcases the efficacy of our method in comparison to other state-of-the-art strategies.
翻訳日:2024-04-02 14:04:28 公開日:2024-03-30
# 対決の監査:エビデンスとスタイルによる高度な対論生成の評価

Auditing Counterfire: Evaluating Advanced Counterargument Generation with Evidence and Style ( http://arxiv.org/abs/2402.08498v3 )

ライセンス: Link先を確認
Preetika Verma, Kokil Jaidka, Svetlana Churina, (参考訳) Reddit ChangeMyViewデータセットからの投稿に対して,エビデンスベースでスタイリスティックな反論を生成する能力に重点を置いて,大規模言語モデル(LLM)が生成した反論を監査した。 GPT-3.5 Turbo と Koala とそれらの微調整された変種と PaLM 2 はエビデンスの使用と議論スタイルの異なるプロンプトである。 GPT-3.5 Turboは、特に「相互性」スタイルの議論において、強いパラフレーズとスタイルの忠実さで、議論の質において最高位にランクされた。 しかし、「No Style」の反論は、平均して最も説得力があることを証明した。 この結果から, 明らか性と様式的要素のバランスが, 説得力のある反論に不可欠であることが示唆された。 我々は、今後の研究の方向性と微調整LDMの意義について議論する。

We audited counter-arguments generated by large language models (LLMs), focusing on their ability to generate evidence-based and stylistic counter-arguments to posts from the Reddit ChangeMyView dataset. Our evaluation is based on Counterfire: a new dataset of 32,000 counter-arguments generated from large language models (LLMs): GPT-3.5 Turbo and Koala and their fine-tuned variants, and PaLM 2, with varying prompts for evidence use and argumentative style. GPT-3.5 Turbo ranked highest in argument quality with strong paraphrasing and style adherence, particularly in `reciprocity' style arguments. However, the `No Style' counter-arguments proved most persuasive on average. The findings suggest that a balance between evidentiality and stylistic elements is vital to a compelling counter-argument. We close with a discussion of future research directions and implications for fine-tuning LLMs.
翻訳日:2024-04-02 14:04:28 公開日:2024-03-30
# RS-DPO:大規模言語モデルのアライメントのためのハイブリッドリジェクションサンプリングと直接参照最適化手法

RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models ( http://arxiv.org/abs/2402.10038v2 )

ライセンス: Link先を確認
Saeed Khaki, JinJin Li, Lan Ma, Liu Yang, Prathap Ramachandra, (参考訳) 人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。 しかし、PPOに基づくRLHFは時折不安定であり、高パラメータの微調整が必要であり、アライメント中に推定される報酬を最大化するために計算コストがかかる。 近年,これらの課題に対処するために,直接選好最適化(DPO)が提案されている。 しかし、DPOはポリシーモデルではなく、ヒトアノテータと代替LLMから生成される対照的な応答に依存しており、RLHFの有効性を制限している。 本稿では,リジェクションサンプリング(RS)とDPOを体系的に組み合わせることで,両課題に対処する。 提案手法であるRS-DPOは、教師付き微調整ポリシーモデル(SFT)の開発を開始する。 プロンプト毎に異なるk応答のセットをSFTモデルから直接サンプリングする。 RS-DPOは報酬分布に基づいてコントラストサンプルのペアを特定する。 最後に、DPOを対照的なサンプルに当てはめ、モデルを人間の好みに合わせる。 実験の結果,提案手法は資源環境に制限のあるLLMを効果的に微調整し,ユーザ意図との整合性を向上させることが示唆された。 さらに、RS、PPO、DPOといった既存の手法よりも優れています。

Reinforcement learning from human feedback (RLHF) has been extensively employed to align large language models with user intent. However, proximal policy optimization (PPO) based RLHF is occasionally unstable requiring significant hyperparameter finetuning, and computationally expensive to maximize the estimated reward during alignment. Recently, direct preference optimization (DPO) is proposed to address those challenges. However, DPO relies on contrastive responses generated from human annotator and alternative LLM, instead of the policy model, limiting the effectiveness of the RLHF. In this paper, we addresses both challenges by systematically combining rejection sampling (RS) and DPO. Our proposed method, RS-DPO, initiates with the development of a supervised fine-tuned policy model (SFT). A varied set of k responses per prompt are sampled directly from the SFT model. RS-DPO identifies pairs of contrastive samples based on their reward distribution. Finally, we apply DPO with the contrastive samples to align the model to human preference. Our experiments indicate that our proposed method effectively fine-tunes LLMs with limited resource environments, leading to improved alignment with user intent. Furthermore, it outperforms existing methods, including RS, PPO, and DPO.
翻訳日:2024-04-02 14:04:28 公開日:2024-03-30
# monal:人間とAIの相互作用をモデル化するためのモデルオートファジー分析

MONAL: Model Autophagy Analysis for Modeling Human-AI Interactions ( http://arxiv.org/abs/2402.11271v2 )

ライセンス: Link先を確認
Shu Yang, Muhammad Asif Ali, Lu Yu, Lijie Hu, Di Wang, (参考訳) 社会情報処理における大規模モデルの重要性の高まりとその多様変種は、社会安全と倫理に関する議論に火をつけている。 しかし、次のような包括的分析の方法が存在する。 i)人間と人工知能システム間の相互作用、及び (ii)関連する制限を理解し、対処すること。 このギャップを埋めるために,大規模モデルの自己消費説明のためのモデルオートファジー分析(MONAL)を提案する。 MONALは、人間とAIシステム間の交換における人為的な情報の抑制を解明するために、2つの異なる自食ループ( ‘`self-consumption loops'' と呼ばれる)を使用している。 多様なデータセットに関する総合的な実験を通じて、生成したモデルの容量を情報の創造者および流通者の両方として評価する。 私たちの重要な発見は 一 人為的な情報と比較して、訓練データセットにおけるモデル生成合成情報の経時的普及率 二 大型モデルの複数の反復にまたがって情報発信者として振る舞う場合において、特定内容を選択的に変更又は優先する傾向 三 社会的・人為的な情報の多様性を低下させる可能性があり、大モデルの性能向上と局所最適化のボトルネックとなる。

The increasing significance of large models and their multi-modal variants in societal information processing has ignited debates on social safety and ethics. However, there exists a paucity of comprehensive analysis for: (i) the interactions between human and artificial intelligence systems, and (ii) understanding and addressing the associated limitations. To bridge this gap, we propose Model Autophagy Analysis (MONAL) for large models' self-consumption explanation. MONAL employs two distinct autophagous loops (referred to as ``self-consumption loops'') to elucidate the suppression of human-generated information in the exchange between human and AI systems. Through comprehensive experiments on diverse datasets, we evaluate the capacities of generated models as both creators and disseminators of information. Our key findings reveal (i) A progressive prevalence of model-generated synthetic information over time within training datasets compared to human-generated information; (ii) The discernible tendency of large models, when acting as information transmitters across multiple iterations, to selectively modify or prioritize specific contents; and (iii) The potential for a reduction in the diversity of socially or human-generated information, leading to bottlenecks in the performance enhancement of large models and confining them to local optima.
翻訳日:2024-04-02 14:04:28 公開日:2024-03-30
# ディープラーニングを用いたビデオベース自閉症検出

Video-Based Autism Detection with Deep Learning ( http://arxiv.org/abs/2402.16774v2 )

ライセンス: Link先を確認
M. Serna-Aguilera, X. B. Nguyen, A. Singh, L. Rockers, S. Park, L. Neely, H. Seo, K. Luu, (参考訳) 自閉症スペクトラム障害(ASD)の患者は、しばしば健康、コミュニケーション、感覚処理の課題を経験する。 本研究では,早期診断における医療従事者を支援するために,ASD児の検出・分類の課題について考察する。 ASDと非ASDの参加者の反応と行動に重要な違いを捉えることを目的として、感覚刺激に反応する子供の映像クリップを分析するディープラーニングモデルを開発した。 高価な特殊な機器を必要とするMRIデータを用いたASD分類における最近の多くの研究とは異なり、我々の手法は強力だが比較的手頃な価格のGPU、標準のコンピュータ設定、推論のためのビデオカメラを利用する。 以上の結果から,本モデルは子どもの運動における重要な違いを効果的に一般化し,理解していることが明らかとなった。 また,本モデルでは,深層学習問題に対するデータ量の制限や,動作人工物であっても学習可能な時間的情報に制限があるにもかかわらず,分類性能が向上していることが注目に値する。

Individuals with Autism Spectrum Disorder (ASD) often experience challenges in health, communication, and sensory processing; therefore, early diagnosis is necessary for proper treatment and care. In this work, we consider the problem of detecting or classifying ASD children to aid medical professionals in early diagnosis. We develop a deep learning model that analyzes video clips of children reacting to sensory stimuli, with the intent of capturing key differences in reactions and behavior between ASD and non-ASD participants. Unlike many recent studies in ASD classification with MRI data, which require expensive specialized equipment, our method utilizes a powerful but relatively affordable GPU, a standard computer setup, and a video camera for inference. Results show that our model effectively generalizes and understands key differences in the distinct movements of the children. It is noteworthy that our model exhibits successful classification performance despite the limited amount of data for a deep learning problem and limited temporal information available for learning, even with the motion artifacts.
翻訳日:2024-04-02 13:54:43 公開日:2024-03-30
# VRP-SAM:ビジュアルリファレンスプロンプト付きSAM

VRP-SAM: SAM with Visual Reference Prompt ( http://arxiv.org/abs/2402.17726v3 )

ライセンス: Link先を確認
Yanpeng Sun, Jiahui Chen, Shan Zhang, Xinyu Zhang, Qiang Chen, Gang Zhang, Errui Ding, Jingdong Wang, Zechao Li, (参考訳) 本稿では,Segment Anything Model (SAM) を利用した新しいVisual Reference Prompt (VRP) エンコーダを提案し,注釈付き参照画像をセグメンテーションのプロンプトとして利用し,VRP-SAMモデルを作成する。 本質的には、VRP-SAMは注釈付き参照画像を使用して特定のオブジェクトを理解し、ターゲット画像内の特定のオブジェクトのセグメンテーションを実行することができる。 注意すべき点は、VRPエンコーダが参照画像のさまざまなアノテーションフォーマットをサポートできることである。例えば、 \textbf{point}、 \textbf{box}、 \textbf{scribble}、 \textbf{mask} である。 VRP-SAMはSAMフレームワーク内で、SAM固有の強みを保ちながら、その汎用性と適用性を拡張し、ユーザフレンドリ性を高めることでブレークスルーを達成する。 VRP-SAMの一般化能力を高めるために、VRPエンコーダはメタラーニング戦略を採用する。 筆者らは,VRP-SAMの有効性を検証するために,PascalおよびCOCOデータセットについて広範な実験を行った。 注目すべきは、VRP-SAMは、最小限の学習可能なパラメータを持つ視覚参照セグメンテーションにおいて最先端のパフォーマンスを達成したことである。 さらに、VRP-SAMは強力な一般化機能を示し、見えないオブジェクトのセグメンテーションを実行し、クロスドメインセグメンテーションを可能にする。 ソースコードとモデルは \url{https://github.com/syp2ysy/VRP-SAM} で入手できる。

In this paper, we propose a novel Visual Reference Prompt (VRP) encoder that empowers the Segment Anything Model (SAM) to utilize annotated reference images as prompts for segmentation, creating the VRP-SAM model. In essence, VRP-SAM can utilize annotated reference images to comprehend specific objects and perform segmentation of specific objects in target image. It is note that the VRP encoder can support a variety of annotation formats for reference images, including \textbf{point}, \textbf{box}, \textbf{scribble}, and \textbf{mask}. VRP-SAM achieves a breakthrough within the SAM framework by extending its versatility and applicability while preserving SAM's inherent strengths, thus enhancing user-friendliness. To enhance the generalization ability of VRP-SAM, the VRP encoder adopts a meta-learning strategy. To validate the effectiveness of VRP-SAM, we conducted extensive empirical studies on the Pascal and COCO datasets. Remarkably, VRP-SAM achieved state-of-the-art performance in visual reference segmentation with minimal learnable parameters. Furthermore, VRP-SAM demonstrates strong generalization capabilities, allowing it to perform segmentation of unseen objects and enabling cross-domain segmentation. The source code and models will be available at \url{https://github.com/syp2ysy/VRP-SAM}
翻訳日:2024-04-02 13:54:43 公開日:2024-03-30
# 逆攻撃による LLM-Resistant Math Word Problem 生成

LLM-Resistant Math Word Problem Generation via Adversarial Attacks ( http://arxiv.org/abs/2402.17916v2 )

ライセンス: Link先を確認
Roy Xie, Chengxuan Huang, Junlin Wang, Bhuwan Dhingra, (参考訳) 大型言語モデル(LLM)は教育の景観を大きく変えた。 現在の盗作検出ツールは、LLMの急速な進歩に追随するのに苦労しているため、教育コミュニティは、LLMの存在下での生徒の真の問題解決能力を評価するという課題に直面している。 本研究は,評価対象の質問の構造と難易度を保ちつつも,LLMでは解決できないような,公正な評価を保証するための新たなパラダイムを探求する。 数学の単語問題に焦点をあて、抽象構文木を利用して、LLMが問題の数値を単純に編集することで誤った解を生成するような逆例を構造的に生成する。 我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。 LLM間で共有脆弱性を識別し,高コストモデルを攻撃するための費用対効果のアプローチを提案する。 さらに, 問題の自動解析を行い, 失敗の原因を調査し, モデルの限界に対する微妙な視点を提供する。

Large language models (LLMs) have significantly transformed the educational landscape. As current plagiarism detection tools struggle to keep pace with LLMs' rapid advancements, the educational community faces the challenge of assessing students' true problem-solving abilities in the presence of LLMs. In this work, we explore a new paradigm for ensuring fair evaluation -- generating adversarial examples which preserve the structure and difficulty of the original questions aimed for assessment, but are unsolvable by LLMs. Focusing on the domain of math word problems, we leverage abstract syntax trees to structurally generate adversarial examples that cause LLMs to produce incorrect answers by simply editing the numeric values in the problems. We conduct experiments on various open- and closed-source LLMs, quantitatively and qualitatively demonstrating that our method significantly degrades their math problem-solving ability. We identify shared vulnerabilities among LLMs and propose a cost-effective approach to attack high-cost models. Additionally, we conduct automatic analysis on math problems and investigate the cause of failure, offering a nuanced view into model's limitation.
翻訳日:2024-04-02 13:54:43 公開日:2024-03-30
# Passive Snapshot Coded Aperture Dual-Pixel RGB-D Imaging

Passive Snapshot Coded Aperture Dual-Pixel RGB-D Imaging ( http://arxiv.org/abs/2402.18102v2 )

ライセンス: Link先を確認
Bhargav Ghanekar, Salman Siddique Khan, Pranav Sharma, Shreyas Singh, Vivek Boominathan, Kaushik Mitra, Ashok Veeraraghavan, (参考訳) パッシブでコンパクトで単発の3Dセンシングは、顕微鏡、医用画像、手術ナビゲーション、フォームファクター、時間、電力制約が存在する自律運転など、多くの応用領域で有用である。 短い撮影距離、超コンパクトなフォームファクター、そして受動的でスナップショットな方法でRGB-Dシーン情報を取得することは困難である。 デュアルピクセル(DP)センサーは、これを実現するための潜在的な解決策である。 DPセンサーは、レンズの2つの異なるハーフから2つのインターリーブピクセルアレイに光線を収集し、ステレオカメラシステムのようにシーンをわずかに異なる2つのビューで撮影する。 しかし,DPセンサによる画像化は,デフォーカスのぼかしサイズがビュー間の相違と直接的に比例することを示している。 これにより、不一致推定とデブロアリングの精度のトレードオフが生じます。 このトレードオフ効果を改善するために,DPセンサとともに撮像レンズに符号化開口を用いるCADS(Coded Aperture Dual-Pixel Sensing)を提案する。 提案手法では,エンドツーエンドの最適化設定で最適な符号化パターンと再構成アルゴリズムを共同で学習する。 以上の結果から, オールインフォーカス(AIF)推定では1.5dBPSNRが改善し, 5-6%の深さ推定精度が得られた。 さらに,デジタル一眼レフ撮影設定のためのCADSプロトタイプを,内視鏡と皮膚鏡で作成する。 我々の新しいデュアルピクセルセンシング手法は、シミュレーションや実世界の実験において、受動的、スナップショット、コンパクトな方法で正確なRGB-D再構成結果を示す。

Passive, compact, single-shot 3D sensing is useful in many application areas such as microscopy, medical imaging, surgical navigation, and autonomous driving where form factor, time, and power constraints can exist. Obtaining RGB-D scene information over a short imaging distance, in an ultra-compact form factor, and in a passive, snapshot manner is challenging. Dual-pixel (DP) sensors are a potential solution to achieve the same. DP sensors collect light rays from two different halves of the lens in two interleaved pixel arrays, thus capturing two slightly different views of the scene, like a stereo camera system. However, imaging with a DP sensor implies that the defocus blur size is directly proportional to the disparity seen between the views. This creates a trade-off between disparity estimation vs. deblurring accuracy. To improve this trade-off effect, we propose CADS (Coded Aperture Dual-Pixel Sensing), in which we use a coded aperture in the imaging lens along with a DP sensor. In our approach, we jointly learn an optimal coded pattern and the reconstruction algorithm in an end-to-end optimization setting. Our resulting CADS imaging system demonstrates improvement of >1.5dB PSNR in all-in-focus (AIF) estimates and 5-6% in depth estimation quality over naive DP sensing for a wide range of aperture settings. Furthermore, we build the proposed CADS prototypes for DSLR photography settings and in an endoscope and a dermoscope form factor. Our novel coded dual-pixel sensing approach demonstrates accurate RGB-D reconstruction results in simulations and real-world experiments in a passive, snapshot, and compact manner.
翻訳日:2024-04-02 13:54:43 公開日:2024-03-30
# ParallelPARC: 自然言語アナロジーを生成するためのスケーラブルなパイプライン

ParallelPARC: A Scalable Pipeline for Generating Natural-Language Analogies ( http://arxiv.org/abs/2403.01139v3 )

ライセンス: Link先を確認
Oren Sultan, Yonatan Bitton, Ron Yosef, Dafna Shahaf, (参考訳) アナロジー作成は人間の認知の中心であり、新しい状況に適応することができる。 現在、ほとんどのアナロジーデータセットは単純なアナロジー(例:単語のアナロジー)に焦点を当てている。 これは計算類似の進歩を後押ししていると我々は信じている。 本研究では,現在最先端のLarge Language Models (LLM) を利用したデータ生成パイプラインであるParallelPARC (Parallel Paragraph Creator) を設計し,複雑な段落をベースとしたアナロジーと,複雑で難易度の高いイントラクタを作成する。 当社のパイプラインを実演し、科学的プロセス間のアナロジーのデータセットであるProPara-Logyを作成します。 我々は人によって検証された金のセットと銀のセットを自動生成する。 我々は、LLMと人間のアナロジー認識を二分選択および複数選択設定でテストし、光監督後、人間が最良のモデル(〜13%のギャップ)より優れていることを示した。 私たちは、銀のセットがトレーニングモデルに役立つことを実証します。 最後に、難解な気晴らし者がLSMを混乱させるが、人間ではないことを示す。 私たちのパイプラインは、この新興分野の研究を促進することを願っています。

Analogy-making is central to human cognition, allowing us to adapt to novel situations -- an ability that current AI systems still lack. Most analogy datasets today focus on simple analogies (e.g., word analogies); datasets including complex types of analogies are typically manually curated and very small. We believe that this holds back progress in computational analogy. In this work, we design a data generation pipeline, ParallelPARC (Parallel Paragraph Creator) leveraging state-of-the-art Large Language Models (LLMs) to create complex, paragraph-based analogies, as well as distractors, both simple and challenging. We demonstrate our pipeline and create ProPara-Logy, a dataset of analogies between scientific processes. We publish a gold-set, validated by humans, and a silver-set, generated automatically. We test LLMs' and humans' analogy recognition in binary and multiple-choice settings, and found that humans outperform the best models (~13% gap) after a light supervision. We demonstrate that our silver-set is useful for training models. Lastly, we show challenging distractors confuse LLMs, but not humans. We hope our pipeline will encourage research in this emerging field.
翻訳日:2024-04-02 13:54:43 公開日:2024-03-30
# 行列変換に基づく低ランク適応(MTLoRA):パラメータ効率な微調整のための脳誘発手法

Matrix-Transformation Based Low-Rank Adaptation (MTLoRA): A Brain-Inspired Method for Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2403.07440v3 )

ライセンス: Link先を確認
Yao Liang, Yuwei Wang, Yang Li, Yi Zeng, (参考訳) LPLM(Large Pretrained Language Models)に基づく微調整技術は、様々な下流タスクにおけるモデル性能を著しく向上し、LPLMの出力挙動を効果的に制御できることが証明されている。 近年,オープンソースのLPLMをベースとした少数のパラメータを微調整する手法が多数提案されており,計算資源やストレージ資源の需要が減少している。 このうち、LoRA(Low-Rank Adaptation)で表される再パラメータ化細調整法が人気を博している。 これらの手法は多くの面でうまく機能するが、複雑なタスク適応性、性能、安定性、アルゴリズムの複雑さの観点からも、改善の余地は十分にある。 これに対し、脳の機能は幾何学的構造によって形成されるという考えに触発されて、このアイデアをLoRA技術に統合し、マトリックス変換に基づく効率的な微調整のための新しい行列変換に基づくパラメータ化手法であるMTLoRAを提案する。 MTLoRAは、変換行列Tを用いて、タスク固有のパラメータ行列上に回転、スケーリング、翻訳などの線形変換を行い、新しい行列特徴パターン(固有ベクトル)を生成し、脳内の複雑な幾何学的構造の特徴パターンが機能に与える影響を模倣し、下流タスクにおけるモデルの性能を向上させることで、その空間幾何学的構造を動的に変化させることを目的としている。 自然言語理解(NLU)タスクでは,GLUEベンチマークテストを用いて評価し,その結果から,MTLoRAは8タスクで約1.0%,自然言語生成(NLG)タスクでは平均0.95%,WebNLGタスクでは0.56%,それぞれパフォーマンス改善を実現していることがわかった。

Fine-tuning techniques based on Large Pretrained Language Models (LPLMs) have been proven to significantly enhance model performance on a variety of downstream tasks and effectively control the output behaviors of LPLMs. Recent studies have proposed numerous methods for fine-tuning a small number of parameters based on open-source LPLMs, reducing the demand for computational and storage resources. Among these, reparameterization fine-tuning methods represented by LoRA (Low-Rank Adaptation) have gained popularity. We find that although these methods perform well in many aspects, there is still considerable room for improvement in terms of complex task adaptability, performance, stability, and algorithm complexity. In response to this, inspired by the idea that the functions of the brain are shaped by its geometric structure, this paper integrates this idea into LoRA technology and proposes a new matrix transformation-based reparameterization method for efficient fine-tuning, named Matrix-Transformation based Low-Rank Adaptation (MTLoRA). MTLoRA aims to dynamically alter its spatial geometric structure by applying a transformation-matrix T to perform linear transformations, such as rotation, scaling, and translation, on the task-specific parameter matrix, generating new matrix feature patterns (eigenvectors) to mimic the fundamental influence of complex geometric structure feature patterns in the brain on functions, thereby enhancing the model's performance in downstream tasks. In Natural Language Understanding (NLU) tasks, it is evaluated using the GLUE benchmark test, and the results reveal that MTLoRA achieves an overall performance increase of about 1.0% across eight tasks; in Natural Language Generation (NLG) tasks, MTLoRA improves performance by an average of 0.95% and 0.56% in the DART and WebNLG tasks, respectively.
翻訳日:2024-04-02 13:54:43 公開日:2024-03-30
# 先行学習によるフローベース生成超解法モデルの構築

Boosting Flow-based Generative Super-Resolution Models via Learned Prior ( http://arxiv.org/abs/2403.10988v2 )

ライセンス: Link先を確認
Li-Yuan Tsao, Yi-Chen Lo, Chia-Che Chang, Hao-Wei Chen, Roy Tseng, Chien Feng, Chun-Yi Lee, (参考訳) フローベース超解像(SR)モデルは、高品質な画像を生成する際に驚くべき能力を示した。 しかし、これらの手法は、グリッドアーティファクト、爆発する逆数、固定サンプリング温度による最適以下の結果など、画像生成においていくつかの課題に直面している。 これらの問題を克服するために、フローベースSRモデルの推論フェーズに先立って学習された条件を導入する。 この前者は,低解像度画像上に条件付き潜在モジュールによって予測された潜時符号であり,フローモデルによりSR画像に変換される。 我々のフレームワークは、アーキテクチャや事前訓練された重量を変更することなく、現代のフローベースSRモデルとシームレスに統合するように設計されている。 提案手法の有効性を,広範囲な実験とアブレーション解析により評価した。 提案するフレームワークは,フローベースSRモデルに固有のすべての問題に対処し,様々なSRシナリオにおける性能を向上させる。 私たちのコードは、https://github.com/liyuantsao/FlowSR-LPで利用可能です。

Flow-based super-resolution (SR) models have demonstrated astonishing capabilities in generating high-quality images. However, these methods encounter several challenges during image generation, such as grid artifacts, exploding inverses, and suboptimal results due to a fixed sampling temperature. To overcome these issues, this work introduces a conditional learned prior to the inference phase of a flow-based SR model. This prior is a latent code predicted by our proposed latent module conditioned on the low-resolution image, which is then transformed by the flow model into an SR image. Our framework is designed to seamlessly integrate with any contemporary flow-based SR model without modifying its architecture or pre-trained weights. We evaluate the effectiveness of our proposed framework through extensive experiments and ablation analyses. The proposed framework successfully addresses all the inherent issues in flow-based SR models and enhances their performance in various SR scenarios. Our code is available at: https://github.com/liyuantsao/FlowSR-LP
翻訳日:2024-04-02 13:44:58 公開日:2024-03-30
# ヒューマンアライメントにおける微調整言語モデルのためのデータ多様性のスケーリング

Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment ( http://arxiv.org/abs/2403.11124v2 )

ライセンス: Link先を確認
Feifan Song, Bowen Yu, Hao Lang, Haiyang Yu, Fei Huang, Houfeng Wang, Yongbin Li, (参考訳) 人間の嗜好の調整は、大規模な言語モデル(LLM)が、高コストの人間のフィードバックを必要としながら、誤解を招く、または有害なコンテンツを生成するのを防ぐ。 人間のアノテーションのリソースが限られていると仮定すると、より多様な PROMPTS またはより多様な RESPONSES をラベル付けする2つの方法がある。 それでも、その影響の直接的な比較は行われていない。 本研究では,その影響を直接反映できる微調整用サンプルの数に応じて,まず両面の多様性を制御した。 多数のプロンプトの代わりに、より多くの応答があるが、人間のアライメントのためにLSMをより良く引き起こすプロンプトは少ない。 さらに、プロンプトの多様性の概念は、通常1桁で定量化される応答よりも複雑である。 その結果, 高速な多様性の新たな定式化が提案され, 微調整後のLLMの最終性能と線形相関が示唆された。 また、データ拡張に利用して、異なるアルゴリズムにその影響を示す実験を行います。

Alignment with human preference prevents large language models (LLMs) from generating misleading or toxic content while requiring high-cost human feedback. Assuming resources of human annotation are limited, there are two different ways of allocating considered: more diverse PROMPTS or more diverse RESPONSES to be labeled. Nonetheless, a straightforward comparison between their impact is absent. In this work, we first control the diversity of both sides according to the number of samples for fine-tuning, which can directly reflect their influence. We find that instead of numerous prompts, more responses but fewer prompts better trigger LLMs for human alignment. Additionally, the concept of diversity for prompts can be more complex than responses that are typically quantified by single digits. Consequently, a new formulation of prompt diversity is proposed, further implying a linear correlation with the final performance of LLMs after fine-tuning. We also leverage it on data augmentation and conduct experiments to show its effect on different algorithms.
翻訳日:2024-04-02 13:44:58 公開日:2024-03-30
# 局所可観測物の熱化に及ぼす非可換電荷の影響

Noncommuting charges' effect on the thermalization of local observables ( http://arxiv.org/abs/2403.13046v2 )

ライセンス: Link先を確認
Shayan Majidy, (参考訳) 非可換保存量(または「チャージ」)の研究は、概念的なパズルを生み出した。 近年の研究では、非交換電荷はいくつかの点で熱化を妨げるが、他の方法ではそれを促進することが示唆されている。 この問題を解決するために, 固有状態熱化仮説に従って熱化する局所観測値の数を減らし, 非可換電荷が熱化を促進することを示す。 まず、局所観測装置が熱を起こさないように、電荷と十分な条件の対応性を確立する。 これらの条件は「力学対称性」として知られている。 「ハミルトニアンが持つ動的対称性のペアごとに対応する電荷が存在することを実証する。 相互関係が多くの突撃とハミルトニアンに成り立つことを証明している。 この対応により、新しい電荷をシステムに導入すれば、非熱的局所観測値の増大または減少が可能であることを示す。 新しい電荷が既存の電荷と通勤すると、システムの非熱可観測物は保存され、新しい電荷が出現する可能性がある。 逆に、通勤しない場合、既存の非熱可観測物は熱を発する。 本研究は, 様々なモデルを用いて, 動的対称性から生じる非交換電荷の非熱的ダイナミクスを除去することを示す。

Studying noncommuting conserved quantities (or `charges') has produced a conceptual puzzle. Recent results suggest that noncommuting charges hinder thermalization in some ways yet promote it in others. To help resolve this puzzle, we demonstrate how noncommuting charges can promote thermalization by reducing the number of local observables that thermalize according to the Eigenstate Thermalization Hypothesis. We first establish a correspondence between charges and sufficient conditions for local observables not to thermalize. These conditions are known as `dynamical symmetries.' We demonstrate that a corresponding charge exists for each pair of dynamical symmetries a Hamiltonian has. We prove that the reciprocal relationship holds for many charges and Hamiltonians. Using this correspondence, we demonstrate that introducing a new charge into a system can either increase or decrease the number of non-thermalizing local observables. If the new charge commutes with the existing ones, the system's non-thermalizing observables are preserved, and new ones may emerge. Conversely, if it does not commute, the existing non-thermalizing observables will thermalize. We illustrate our results using various models, showing that noncommuting charges eliminate the non-thermalizing dynamics arising from dynamical symmetries.
翻訳日:2024-04-02 13:44:58 公開日:2024-03-30
# Kernel Multigrid: スパースガウスプロセス回帰によるバックフィッティングの高速化

Kernel Multigrid: Accelerate Back-fitting via Sparse Gaussian Process Regression ( http://arxiv.org/abs/2403.13300v2 )

ライセンス: Link先を確認
Lu Zou, Liang Ding, (参考訳) 加法ガウス過程(GP)は非パラメトリックな特徴選択のための一般的なアプローチである。 これらのモデルの一般的な訓練方法はベイズバックフィッティングである。 しかし、加法GPのトレーニングにおけるバックフィッティングの収束率は依然として未解決の問題である。 Kernel Packets (KP) と呼ばれる手法を利用することで、バックフィッティングの収束速度が 1-\mathcal{O}(\frac{1}{n}))^t$ よりも高速であることを証明する。 したがって、バックフィッティングは収束を達成するために$\mathcal{O}(n\log n)$イテレーションを最小限にする必要がある。 さらに,KPをベースとしたKernel Multigrid (KMG)アルゴリズムを提案する。 このアルゴリズムは、粗いガウスプロセス回帰(GPR)を組み込んでバックフィッティングの繰り返しの残余を処理することでバックフィッティングを強化する。 これは、構造化データと散乱データの両方を持つ加法的GPに適用できる。 理論的には、KMG は所要の反復を $\mathcal{O}(\log n)$ に減らし、それぞれ $\mathcal{O}(n\log n)$ と $\mathcal{O}(n)$ で時間と空間の複雑さを保存することを証明している。 数値的には、わずか10個の誘導点を持つスパースGPRを用いることで、KMGは5回の反復で高次元目標の正確な近似を生成することができる。

Additive Gaussian Processes (GPs) are popular approaches for nonparametric feature selection. The common training method for these models is Bayesian Back-fitting. However, the convergence rate of Back-fitting in training additive GPs is still an open problem. By utilizing a technique called Kernel Packets (KP), we prove that the convergence rate of Back-fitting is no faster than $(1-\mathcal{O}(\frac{1}{n}))^t$, where $n$ and $t$ denote the data size and the iteration number, respectively. Consequently, Back-fitting requires a minimum of $\mathcal{O}(n\log n)$ iterations to achieve convergence. Based on KPs, we further propose an algorithm called Kernel Multigrid (KMG). This algorithm enhances Back-fitting by incorporating a sparse Gaussian Process Regression (GPR) to process the residuals after each Back-fitting iteration. It is applicable to additive GPs with both structured and scattered data. Theoretically, we prove that KMG reduces the required iterations to $\mathcal{O}(\log n)$ while preserving the time and space complexities at $\mathcal{O}(n\log n)$ and $\mathcal{O}(n)$ per iteration, respectively. Numerically, by employing a sparse GPR with merely 10 inducing points, KMG can produce accurate approximations of high-dimensional targets within 5 iterations.
翻訳日:2024-04-02 13:44:58 公開日:2024-03-30
# vid-TLDR:軽量ビデオトランスのためのフリートークンマージのトレーニング

vid-TLDR: Training Free Token merging for Light-weight Video Transformer ( http://arxiv.org/abs/2403.13347v2 )

ライセンス: Link先を確認
Joonmyung Choi, Sanghyeok Lee, Jaewon Chu, Minhyuk Choi, Hyunwoo J. Kim, (参考訳) ビデオトランスフォーマーは、より優れた表現力と柔軟性を備えた、様々なビデオ下流タスクの一般的なソリューションとなっている。 しかし、これらのビデオトランスフォーマーは、ビデオフレーム全体にわたる大量のトークンによって引き起こされる膨大な計算コストに悩まされている。 さらに、主な内容、例えば背景に関係のないパッチは、モデルの一般化性能を低下させる。 これらの課題に対処するために,ビデオトランスフォーマーの効率向上を目的とした軽量ビデオトランスフォーマー(vid-TLDR)の学習自由トークンマージを提案する。 vid-TLDRでは,アテンションマップのみを用いて映像中の有能な領域をキャプチャする手法を提案する。 さらに,背景トークンをドロップし,オブジェクトスコアをシャープすることで,サリエンシ対応トークンマージ戦略を導入する。 実験の結果, vid-TLDR はビデオトランスフォーマーの計算複雑性を著しく軽減する一方で, vid-TLDR を含まないベースモデルと比較して競争性能が向上することがわかった。 コードはhttps://github.com/mlvlab/vid-TLDRで入手できる。

Video Transformers have become the prevalent solution for various video downstream tasks with superior expressive power and flexibility. However, these video transformers suffer from heavy computational costs induced by the massive number of tokens across the entire video frames, which has been the major barrier to training the model. Further, the patches irrelevant to the main contents, e.g., backgrounds, degrade the generalization performance of models. To tackle these issues, we propose training free token merging for lightweight video Transformer (vid-TLDR) that aims to enhance the efficiency of video Transformers by merging the background tokens without additional training. For vid-TLDR, we introduce a novel approach to capture the salient regions in videos only with the attention map. Further, we introduce the saliency-aware token merging strategy by dropping the background tokens and sharpening the object scores. Our experiments show that vid-TLDR significantly mitigates the computational complexity of video Transformers while achieving competitive performance compared to the base model without vid-TLDR. Code is available at https://github.com/mlvlab/vid-TLDR.
翻訳日:2024-04-02 13:44:58 公開日:2024-03-30
# 大規模言語モデルとリアルボットアカウントを用いたソーシャルメディアプラットフォームにおけるニュース消費のインセンティブ

Incentivizing News Consumption on Social Media Platforms Using Large Language Models and Realistic Bot Accounts ( http://arxiv.org/abs/2403.13362v3 )

ライセンス: Link先を確認
Hadi Askari, Anshuman Chhabra, Bernhard Clemm von Hohenberg, Michael Heseltine, Magdalena Wojcieszak, (参考訳) 偏極化、信頼の低下、民主的規範に対する波及的な支持は、アメリカの民主主義への脅威を迫っている。 検証済みで質の高いニュースへの暴露は、これらの脅威に対する個人の感受性を低下させ、市民が誤情報、ポピュリズム、超党派レトリックに対してより弾力的になる可能性がある。 本研究は, 実証およびイデオロギー的にバランスの取れたニュースを, 生態学的に妥当な環境で利用者の露出とエンゲージメントを高める方法について検討する。 28,457人のTwitterユーザーを対象に,大規模な2週間のフィールド実験(1/19/2023から2/3/2023まで)を実施しています。 私たちは、スポーツ、エンターテイメント、ライフスタイルについてツイートするユーザーに対して、質の高いニュース機関のトピック関連セクションのURLと、Twitterアカウントのフォローを奨励する2つのハードコードされた要素を含むコンテキスト応答で、GPT-2を利用した28のボットを作成しました。 ボットの性別による差分効果を更にテストするために、治療対象のユーザはランダムに、女性または男性として提示されたボットの応答を受信するように割り当てられた。 我々は、我々の残業介入が、ニュースメディア組織、ニュースコンテンツの共有と好意、政治に関するつぶやき、政治コンテンツの好意を後押しするかどうかを検討する。 治療を受けたユーザーは、より多くのニュースアカウントをフォローし、女性のボット治療を受けたユーザーは、コントロールよりもニュースコンテンツを好む傾向にあった。 しかし、これらの結果の大部分は規模が小さく、すでに政治的に興味を持つTwitterユーザーに限定されていた。 これらの発見は、ソーシャルメディアやニュース組織に影響を及ぼし、また、大規模言語モデルやその他の計算介入が、質の高いニュースや公務に対する個人のプラットフォーム上でのエンゲージメントを効果的に向上させる方法について、今後の研究の方向性を提供する。

Polarization, declining trust, and wavering support for democratic norms are pressing threats to U.S. democracy. Exposure to verified and quality news may lower individual susceptibility to these threats and make citizens more resilient to misinformation, populism, and hyperpartisan rhetoric. This project examines how to enhance users' exposure to and engagement with verified and ideologically balanced news in an ecologically valid setting. We rely on a large-scale two-week long field experiment (from 1/19/2023 to 2/3/2023) on 28,457 Twitter users. We created 28 bots utilizing GPT-2 that replied to users tweeting about sports, entertainment, or lifestyle with a contextual reply containing two hardcoded elements: a URL to the topic-relevant section of quality news organization and an encouragement to follow its Twitter account. To further test differential effects by gender of the bots, treated users were randomly assigned to receive responses by bots presented as female or male. We examine whether our over-time intervention enhances the following of news media organization, the sharing and the liking of news content and the tweeting about politics and the liking of political content. We find that the treated users followed more news accounts and the users in the female bot treatment were more likely to like news content than the control. Most of these results, however, were small in magnitude and confined to the already politically interested Twitter users, as indicated by their pre-treatment tweeting about politics. These findings have implications for social media and news organizations, and also offer direction for future work on how Large Language Models and other computational interventions can effectively enhance individual on-platform engagement with quality news and public affairs.
翻訳日:2024-04-02 13:44:58 公開日:2024-03-30
# ReGround: テキストと空間グラウンドを無償で改善

ReGround: Improving Textual and Spatial Grounding at No Cost ( http://arxiv.org/abs/2403.13589v2 )

ライセンス: Link先を確認
Yuseung Lee, Minhyuk Sung, (参考訳) テキストプロンプトと境界ボックスのような空間的手がかりの両方によって画像生成プロセスが導かれるとき、これらの要素は調和して機能するか、一方が他方を支配しているのか? U-Netにゲート自己アテンションを組み込んだ事前学習画像拡散モデルの解析により, ゲート自己アテンションからクロスアテンションへの逐次的な流れにより, 空間グラウンドリングがテキストグラウンドリングを上回ることが判明した。 このようなバイアスは、単にネットワークアーキテクチャを書き換え、順序から並列に切り換えて、ゲートされた自己注意とクロスアテンションのいずれにおいても、精度を犠牲にすることなく、大幅に軽減できることを示す。 この驚くほど単純で効果的なソリューションは、ネットワークの微調整を必要としないが、2つの基盤間のトレードオフを著しく削減する。 実験では, テキストグラウンドと空間グラウンドのトレードオフにおいて, 元のGLIGENから再配線版への大幅な改良が示された。

When an image generation process is guided by both a text prompt and spatial cues, such as a set of bounding boxes, do these elements work in harmony, or does one dominate the other? Our analysis of a pretrained image diffusion model that integrates gated self-attention into the U-Net reveals that spatial grounding often outweighs textual grounding due to the sequential flow from gated self-attention to cross-attention. We demonstrate that such bias can be significantly mitigated without sacrificing accuracy in either grounding by simply rewiring the network architecture, changing from sequential to parallel for gated self-attention and cross-attention. This surprisingly simple yet effective solution does not require any fine-tuning of the network but significantly reduces the trade-off between the two groundings. Our experiments demonstrate significant improvements from the original GLIGEN to the rewired version in the trade-off between textual grounding and spatial grounding.
翻訳日:2024-04-02 13:35:12 公開日:2024-03-30
# 三次元感情認識におけるマルチモーダルフュージョンのための再帰的関節交叉注意法

Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition ( http://arxiv.org/abs/2403.13659v2 )

ライセンス: Link先を確認
R. Gnana Praveen, Jahangir Alam, (参考訳) マルチモーダル感情認識は近年顕著な進歩を遂げているが、モーダル間の豊かなシナジー的関係の可能性は完全には活用されていない。 本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を提案する。 特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づいて注目重みを計算し,モーダル間の相互関係を同時に捉える。 個々のモダリティの付随する特徴は、より洗練された特徴表現を得るために再帰的なメカニズムで融合モデルへの入力として再び供給される。 我々はまた、個々のモーダルの特徴表現の時間的モデリングを改善するために、時間的畳み込みネットワーク(TCN)についても検討した。 Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。 音声,視覚,テキスト間の相乗的相互関係を効果的に把握することにより,検証セット(テストセット)上でそれぞれ0.585(0.542)と0.659(0.619)の一致相関係数(CCC)を達成する。 これは、第6回ABAW(Affective Behavior Analysis in-the-Wild)コンペティション(ABAW)における、有価値と覚醒値の検証セット(テストセット)において、それぞれ0.24(0.211)と0.20(0.191)を大きく改善したことを示している。

Though multimodal emotion recognition has achieved significant progress over recent years, the potential of rich synergic relationships across the modalities is not fully exploited. In this paper, we introduce Recursive Joint Cross-Modal Attention (RJCMA) to effectively capture both intra-and inter-modal relationships across audio, visual and text modalities for dimensional emotion recognition. In particular, we compute the attention weights based on cross-correlation between the joint audio-visual-text feature representations and the feature representations of individual modalities to simultaneously capture intra- and inter-modal relationships across the modalities. The attended features of the individual modalities are again fed as input to the fusion model in a recursive mechanism to obtain more refined feature representations. We have also explored Temporal Convolutional Networks (TCNs) to improve the temporal modeling of the feature representations of individual modalities. Extensive experiments are conducted to evaluate the performance of the proposed fusion model on the challenging Affwild2 dataset. By effectively capturing the synergic intra- and inter-modal relationships across audio, visual and text modalities, the proposed fusion model achieves a Concordance Correlation Coefficient (CCC) of 0.585 (0.542) and 0.659 (0.619) for valence and arousal respectively on the validation set (test set). This shows a significant improvement over the baseline of 0.24 (0.211) and 0.20 (0.191) for valence and arousal respectively on the validation set (test set) of the valence-arousal challenge of 6th Affective Behavior Analysis in-the-Wild (ABAW) competition.
翻訳日:2024-04-02 13:35:12 公開日:2024-03-30
# 交通ギャップの理解:チャタヌーガ, チャタヌーガ, シャーロット, アヴォンデールにおけるオンデマンドバスサービスと都市気候レジリエンスの比較研究

Understanding the Transit Gap: A Comparative Study of On-Demand Bus Services and Urban Climate Resilience in South End, Charlotte, NC and Avondale, Chattanooga, TN ( http://arxiv.org/abs/2403.14671v2 )

ライセンス: Link先を確認
Sanaz Sadat Hosseini, Babak Rahimi Ardabili, Mona Azarbayjani, Srinivas Pulugurtha, Hamed Tabkhi, (参考訳) 都市デザインは持続可能性に大きな影響を及ぼし、特に公共交通機関の効率と二酸化炭素排出量の削減という文脈においてである。 本研究は, 南端, シャーロット, NC, 動的混在型都市デザインパターンを特徴とする2つの地区と, 郊外グリッドレイアウトを有するチャタヌーガ, アヴォンデールの2つの地区を探索する。 TransIT-GYMツールを用いて,これらの異なる都市環境におけるバス利用の増加が交通とCO2排出量に与える影響を評価する。 本研究は,交通システムの効率化における都市設計と計画の重要な役割を明らかにするものである。 サウスエンドでは、混合用途の設計により排出量が大幅に減少し、都市のレイアウトが公共交通機関の成果に大きく影響することを示した。 ユニークな都市デザイン要素を考慮に入れた卓越した戦略は、気候の回復に不可欠である。 特に、バスの利用量は、サウスエンドで10.18%、アヴォンデールで8.13%減少し、全体の交通量も減少した。 50%のバス利用目標がサウスエンドで21.45%、アヴォンデールで14.50%減少していた。 バス利用の70%という理想主義的な目標において、サウスエンドとアヴォンデールはそれぞれ37.22%と27.80%の排出量削減が見られた。 これらの知見は、持続可能な都市景観開発において、都市設計者や政策立案者にとって不可欠である。

Urban design significantly impacts sustainability, particularly in the context of public transit efficiency and carbon emissions reduction. This study explores two neighborhoods with distinct urban designs: South End, Charlotte, NC, featuring a dynamic mixed-use urban design pattern, and Avondale, Chattanooga, TN, with a residential suburban grid layout. Using the TRANSIT-GYM tool, we assess the impact of increased bus utilization in these different urban settings on traffic and CO2 emissions. Our results highlight the critical role of urban design and planning in transit system efficiency. In South End, the mixed-use design led to more substantial emission reductions, indicating that urban layout can significantly influence public transit outcomes. Tailored strategies that consider the unique urban design elements are essential for climate resilience. Notably, doubling bus utilization decreased daily emissions by 10.18% in South End and 8.13% in Avondale, with a corresponding reduction in overall traffic. A target of 50% bus utilization saw emissions drop by 21.45% in South End and 14.50% in Avondale. At an idealistic goal of 70% bus utilization, South End and Avondale witnessed emission reductions of 37.22% and 27.80%, respectively. These insights are crucial for urban designers and policymakers in developing sustainable urban landscapes.
翻訳日:2024-04-02 13:35:12 公開日:2024-03-30
# 損失から見た言語モデルの創発的能力の理解

Understanding Emergent Abilities of Language Models from the Loss Perspective ( http://arxiv.org/abs/2403.15796v2 )

ライセンス: Link先を確認
Zhengxiao Du, Aohan Zeng, Yuxiao Dong, Jie Tang, (参考訳) 近年の研究では、言語モデルにおける創発的能力は大規模モデルに限ったものであるという信念が疑問視されている。 この懐疑論は2つの観察から生じる。 1)小型モデルは創発能力に高い性能を示すことができる。 2)これらの能力を測定するために使用される不連続な指標には疑問がある。 本稿では,モデルサイズやトレーニング計算の代わりに,事前学習損失のレンズの創発能力について検討する。 トレーニング前の損失が同じだが、異なるモデルとデータサイズを持つモデルが、下流の様々なタスクで同じパフォーマンスを生成することを実証する。 また、トレーニング前の損失が特定のしきい値を下回ると、あるタスク(メトリクスの連続性に関係なく)において、モデルが創発的な能力を示すこともわかりました。 このしきい値に達する前に、その性能はランダムな推測のレベルに留まる。 これにより、事前学習損失の低いモデルに現れるような創発的能力を再定義し、事前学習損失の大きいモデルのパフォーマンストレンドを単に外挿するだけでは予測できないことを強調した。

Recent studies have put into question the belief that emergent abilities in language models are exclusive to large models. This skepticism arises from two observations: 1) smaller models can also exhibit high performance on emergent abilities and 2) there is doubt on the discontinuous metrics used to measure these abilities. In this paper, we propose to study emergent abilities in the lens of pre-training loss, instead of model size or training compute. We demonstrate that the models with the same pre-training loss, but different model and data sizes, generate the same performance on various downstream tasks. We also discover that a model exhibits emergent abilities on certain tasks -- regardless of the continuity of metrics -- when its pre-training loss falls below a specific threshold. Before reaching this threshold, its performance remains at the level of random guessing. This inspires us to redefine emergent abilities as those that manifest in models with lower pre-training losses, highlighting that these abilities cannot be predicted by merely extrapolating the performance trends of models with higher pre-training losses.
翻訳日:2024-04-02 13:35:12 公開日:2024-03-30
# IllusionVQA:視覚言語モデルのための干渉光学Illusionデータセット

IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models ( http://arxiv.org/abs/2403.15952v2 )

ライセンス: Link先を確認
Haz Sameen Shahgir, Khondker Salman Sayeed, Abhik Bhattacharjee, Wasi Uddin Ahmad, Yue Dong, Rifat Shahriyar, (参考訳) 視覚言語モデル(VLM)の出現により、研究者は自然言語を用いたニューラルネットワークの視覚的理解を調査できるようになった。 オブジェクトの分類と検出以外にも、VLMは視覚的理解と常識的推論が可能である。 イメージ自体が本質的に不合理な場合、VLMはどのように反応しますか? この目的のために、IllusionVQA: 難解な光学錯視と難解なシーンの多様なデータセットを示し、VLMの能力を2つの異なる多重選択VQAタスク(理解とソフトローカライゼーション)で検証する。 最高性能のVLMであるGPT4Vは、理解タスクで62.99%の精度(4ショット)、ローカライゼーションタスクで49.7%(4ショットとChain-of-Thought)を達成している。 人間の評価は、人間が理解と局在において91.03%と100%の精度を達成することを明らかにしている。 In-Context Learning (ICL) と Chain-of-Thought は,ローカライゼーションタスクにおけるGeminiPro の性能を著しく低下させる。 直感的には、VLMのICL能力の潜在的な弱点は、正しい答えがコンテキストウィンドウにあるとしても、光学的錯覚を見つけることができないことである。

The advent of Vision Language Models (VLM) has allowed researchers to investigate the visual understanding of a neural network using natural language. Beyond object classification and detection, VLMs are capable of visual comprehension and common-sense reasoning. This naturally led to the question: How do VLMs respond when the image itself is inherently unreasonable? To this end, we present IllusionVQA: a diverse dataset of challenging optical illusions and hard-to-interpret scenes to test the capability of VLMs in two distinct multiple-choice VQA tasks - comprehension and soft localization. GPT4V, the best-performing VLM, achieves 62.99% accuracy (4-shot) on the comprehension task and 49.7% on the localization task (4-shot and Chain-of-Thought). Human evaluation reveals that humans achieve 91.03% and 100% accuracy in comprehension and localization. We discover that In-Context Learning (ICL) and Chain-of-Thought reasoning substantially degrade the performance of GeminiPro on the localization task. Tangentially, we discover a potential weakness in the ICL capabilities of VLMs: they fail to locate optical illusions even when the correct answer is in the context window as a few-shot example.
翻訳日:2024-04-02 13:35:12 公開日:2024-03-30
# 干し草における針の発見--見えない透かし検出のためのブラックボックスアプローチ

Finding needles in a haystack: A Black-Box Approach to Invisible Watermark Detection ( http://arxiv.org/abs/2403.15955v3 )

ライセンス: Link先を確認
Minzhou Pan, Zhenting Wang, Xin Dong, Vikash Sehwag, Lingjuan Lyu, Xue Lin, (参考訳) 本稿では,ブラックボックスとアノテーションを含まない環境下で,初めて目に見えない透かし検出手法であるWaterMark Detection (WMD)を提案する。 WMDは、特定の復号法や透かし技法の事前知識に頼ることなく、クリーンな非透かしデータセットを基準として、所定の参照データセット内の任意の透かしを検出することができる。 我々はオフセット学習の基礎を用いてWMDを開発し、クリーンな非透かしデータセットにより参照データセットにおける透かしサンプルのみの影響を分離することができる。 包括的評価では,AUCスコアが0.5程度しか得られない難易度検出法よりも有意に優れ,WMDの有効性が示された。 対照的にWMDは、多くのシングルウォーターマークデータセットでは0.9を超え、多様なデータセットやウォーターマーク手法でより困難なマルチウォーターマークシナリオでは0.7を超えている。 目に見えない透かしがますます普及する一方、特定の復号法は開示されていないが、我々のアプローチは汎用的なソリューションを提供し、私たちのデジタルビジュアルコンテンツに対する説明責任、透明性、信頼を高めるための道筋を確立する。

In this paper, we propose WaterMark Detection (WMD), the first invisible watermark detection method under a black-box and annotation-free setting. WMD is capable of detecting arbitrary watermarks within a given reference dataset using a clean non-watermarked dataset as a reference, without relying on specific decoding methods or prior knowledge of the watermarking techniques. We develop WMD using foundations of offset learning, where a clean non-watermarked dataset enables us to isolate the influence of only watermarked samples in the reference dataset. Our comprehensive evaluations demonstrate the effectiveness of WMD, significantly outperforming naive detection methods, which only yield AUC scores around 0.5. In contrast, WMD consistently achieves impressive detection AUC scores, surpassing 0.9 in most single-watermark datasets and exceeding 0.7 in more challenging multi-watermark scenarios across diverse datasets and watermarking methods. As invisible watermarks become increasingly prevalent, while specific decoding techniques remain undisclosed, our approach provides a versatile solution and establishes a path toward increasing accountability, transparency, and trust in our digital visual content.
翻訳日:2024-04-02 13:35:12 公開日:2024-03-30
# 電力価格予測のための変圧器アプローチ

A Transformer approach for Electricity Price Forecasting ( http://arxiv.org/abs/2403.16108v2 )

ライセンス: Link先を確認
Oscar Llorente, Jose Portela, (参考訳) 本稿では、純粋なトランスフォーマーモデルを用いた電力価格予測(EPF)に対する新しいアプローチを提案する。 他の選択肢とは対照的に、アテンション機構と組み合わせて他のリカレントネットワークは使用されない。 したがって、注意層は時間的パターンを捉えるのに十分であることを示す。 また、オープンソースのEPFツールボックスを用いたモデルの比較を行い、EPF研究における再現性と透明性を高めるためのコードを提供する。 その結果、トランスフォーマーモデルは従来の手法よりも優れており、信頼性と持続可能な電力系統運用のための有望なソリューションを提供することがわかった。

This paper presents a novel approach to electricity price forecasting (EPF) using a pure Transformer model. As opposed to other alternatives, no other recurrent network is used in combination to the attention mechanism. Hence, showing that the attention layer is enough for capturing the temporal patterns. The paper also provides fair comparison of the models using the open-source EPF toolbox and provide the code to enhance reproducibility and transparency in EPF research. The results show that the Transformer model outperforms traditional methods, offering a promising solution for reliable and sustainable power system operation.
翻訳日:2024-04-02 13:35:12 公開日:2024-03-30
# 双方向一貫性モデル

Bidirectional Consistency Models ( http://arxiv.org/abs/2403.18035v2 )

ライセンス: Link先を確認
Liangchen Li, Jiajun He, (参考訳) 拡散モデル(DM)は、確率フロー常微分方程式(PF ODE)に沿って移動するプロセスであるランダムベクトルを反復的に認知することで、驚くほど高品質なサンプルを生成することができる。 興味深いことに、DMは、補間や画像編集といった下流タスクのキー操作であるPFODEに沿って後方に移動することで、入力画像からノイズへの変換も可能である。 しかし、このプロセスの反復的な性質は、その速度を制限し、より広範な応用を妨げる。 近年、PF ODEの積分を近似することにより、CM(Consistency Models)がこの問題に対処し、イテレーションの数を大幅に削減している。 しかし、明示的なODEソルバが存在しないことは、反転過程を複雑にする。 これを解決するために,PF ODE に沿った前方と後方の両方のトラバースが可能な単一ニューラルネットワークを学習し,ひとつのフレームワーク内で生成タスクと反転タスクを効率的に統一する双方向一貫性モデル (BCM) を導入する。 特に,提案手法では,1ステップ生成と逆変換が可能であり,さらに生成品質の向上や再構成誤差の低減のために追加ステップを使用することが可能である。 さらに,モデルの双方向一貫性を活用することで,生成した画像コンテンツを保存しながらFIDを向上させるサンプリング戦略を導入する。 我々はさらに、補間や塗装などの下流タスクにおいて、我々のモデル能力を示すとともに、圧縮画像のブラインド復元やブラックボックスの敵攻撃の防御など、潜在的な応用のデモンストレーションを行う。

Diffusion models (DMs) are capable of generating remarkably high-quality samples by iteratively denoising a random vector, a process that corresponds to moving along the probability flow ordinary differential equation (PF ODE). Interestingly, DMs can also invert an input image to noise by moving backward along the PF ODE, a key operation for downstream tasks such as interpolation and image editing. However, the iterative nature of this process restricts its speed, hindering its broader application. Recently, Consistency Models (CMs) have emerged to address this challenge by approximating the integral of the PF ODE, largely reducing the number of iterations. Yet, the absence of an explicit ODE solver complicates the inversion process. To resolve this, we introduce the Bidirectional Consistency Model (BCM), which learns a single neural network that enables both forward and backward traversal along the PF ODE, efficiently unifying generation and inversion tasks within one framework. Notably, our proposed method enables one-step generation and inversion while also allowing the use of additional steps to enhance generation quality or reduce reconstruction error. Furthermore, by leveraging our model's bidirectional consistency, we introduce a sampling strategy that can enhance FID while preserving the generated image content. We further showcase our model's capabilities in several downstream tasks, such as interpolation and inpainting, and present demonstrations of potential applications, including blind restoration of compressed images and defending black-box adversarial attacks.
翻訳日:2024-04-02 13:25:26 公開日:2024-03-30
# 言語性能認知スコア予測のためのクロスドメインファイバクラスタ形状解析

Cross-domain Fiber Cluster Shape Analysis for Language Performance Cognitive Score Prediction ( http://arxiv.org/abs/2403.19001v2 )

ライセンス: Link先を確認
Yui Lo, Yuqian Chen, Dongnan Liu, Wan Liu, Leo Zekelman, Fan Zhang, Yogesh Rathi, Nikos Makris, Alexandra J. Golby, Weidong Cai, Lauren J. O'Donnell, (参考訳) 形状はコンピュータグラフィックスにおいて重要な役割を担い、物体の形態や機能を伝達する情報的特徴を提供する。 脳画像における形状解析は、人間の脳の構造と機能の相関を解釈するのに役立ちます。 本研究では,脳の3次元白質結合の形状と,人間の認知機能に対する潜在的な予測的関係について検討する。 拡散磁気共鳴画像(dMRI)による脳の3D点配列の再構成を行った。 それぞれの接続を記述するために、従来のdMRI接続と組織微細構造の特徴に加えて、12個の形状記述子を抽出する。 マルチヘッド型クロスアテンション機能融合モジュールを用いて,dMRIトラクタグラフィーに基づく主観的言語性能の予測を行う新しいフレームワークであるシェイプ・フューズ・ファイバ・クラスタ・トランスフォーマ(SFFormer)を導入する。 健常成人1065名を対象に,本手法の有効性について検討した。 以上の結果から,トランスフォーマーベースSFFormerモデルと,形状,微細構造,接続性を考慮したイントラ機能融合がともに有益であることが示され,それらとともに,対象言語の性能評価の精度が向上することが示唆された。 以上の結果から,脳の接続の形状は人間の言語機能を予測することが示唆された。

Shape plays an important role in computer graphics, offering informative features to convey an object's morphology and functionality. Shape analysis in brain imaging can help interpret structural and functionality correlations of the human brain. In this work, we investigate the shape of the brain's 3D white matter connections and its potential predictive relationship to human cognitive function. We reconstruct brain connections as sequences of 3D points using diffusion magnetic resonance imaging (dMRI) tractography. To describe each connection, we extract 12 shape descriptors in addition to traditional dMRI connectivity and tissue microstructure features. We introduce a novel framework, Shape--fused Fiber Cluster Transformer (SFFormer), that leverages a multi-head cross-attention feature fusion module to predict subject-specific language performance based on dMRI tractography. We assess the performance of the method on a large dataset including 1065 healthy young adults. The results demonstrate that both the transformer-based SFFormer model and its inter/intra feature fusion with shape, microstructure, and connectivity are informative, and together, they improve the prediction of subject-specific language performance scores. Overall, our results indicate that the shape of the brain's connections is predictive of human language function.
翻訳日:2024-04-02 13:25:26 公開日:2024-03-30
# MMVP:ビジョンと圧力センサーを備えたマルチモーダルMOCapデータセット

MMVP: A Multimodal MoCap Dataset with Vision and Pressure Sensors ( http://arxiv.org/abs/2403.17610v2 )

ライセンス: Link先を確認
He Zhang, Shenghao Ren, Haolei Yuan, Jianhui Zhao, Fan Li, Shuangpeng Sun, Zhenghao Liang, Tao Yu, Qiu Shen, Xun Cao, (参考訳) 足の接触は人間の動きを捉え、理解し、生成するための重要な手がかりである。 既存のデータセットは、しきい値との視覚的マッチングや圧力信号の導入によって、密接な足の接触に注釈を付ける傾向がある。 しかしながら、これらのアプローチは低い精度に悩まされるか、小さな範囲とスローモーションのためにのみ設計されている。 広角かつ高速な人間の動きと、正確で密度の高い足の接触アノテーションを備えた、視覚圧のマルチモーダルデータセットがまだ存在しない。 このギャップを埋めるために、MMVPと呼ばれるビジョンと圧力センサーを備えたMultimodal MoCapデータセットを提案する。 MMVPは、RGBD観測と同期した正確で高密度な足底圧力信号を提供し、特に可塑性形状の推定、足のドリフトのない堅牢なポーズフィッティング、そして正確な大域的翻訳追跡に有用である。 このデータセットを検証するために、RGBD-P SMPLフィッティング法と、人間のモーションキャプチャのためのモノクロビデオベースラインフレームワークVP-MoCapを提案する。 実験により、RGBD-P SMPLフィッティングは、純粋な視覚的モーションキャプチャーを著しく上回ることがわかった。 さらに、VP-MoCapは、足の接触や大域的な翻訳推定精度でSOTA法より優れている。 データセットとベースラインフレームワークの設定は、この方向の研究を刺激し、さまざまなドメインにおけるMoCapアプリケーションに良いリファレンスを提供すると信じています。 プロジェクトページ: https://metaverse-ai-lab-thu.github.io/MMVP-Dataset/。

Foot contact is an important cue for human motion capture, understanding, and generation. Existing datasets tend to annotate dense foot contact using visual matching with thresholding or incorporating pressure signals. However, these approaches either suffer from low accuracy or are only designed for small-range and slow motion. There is still a lack of a vision-pressure multimodal dataset with large-range and fast human motion, as well as accurate and dense foot-contact annotation. To fill this gap, we propose a Multimodal MoCap Dataset with Vision and Pressure sensors, named MMVP. MMVP provides accurate and dense plantar pressure signals synchronized with RGBD observations, which is especially useful for both plausible shape estimation, robust pose fitting without foot drifting, and accurate global translation tracking. To validate the dataset, we propose an RGBD-P SMPL fitting method and also a monocular-video-based baseline framework, VP-MoCap, for human motion capture. Experiments demonstrate that our RGBD-P SMPL Fitting results significantly outperform pure visual motion capture. Moreover, VP-MoCap outperforms SOTA methods in foot-contact and global translation estimation accuracy. We believe the configuration of the dataset and the baseline frameworks will stimulate the research in this direction and also provide a good reference for MoCap applications in various domains. Project page: https://metaverse-ai-lab-thu.github.io/MMVP-Dataset/.
翻訳日:2024-04-02 13:15:05 公開日:2024-03-30
# 安全でロバストな強化学習:原則と実践

Safe and Robust Reinforcement Learning: Principles and Practice ( http://arxiv.org/abs/2403.18539v2 )

ライセンス: Link先を確認
Taku Yamagata, Raul Santos-Rodriguez, (参考訳) 強化学習(Reinforcement Learning, RL)は, 比較的複雑なタスクの解決に成功しているが, 現実のシナリオにおけるRLシステムの展開は, 安全性と堅牢性に関する重大な課題を生じさせている。 本稿では,これらの課題を,アルゴリズム的,倫理的,実践的な考察を包含して,安全で堅牢なRLランドスケープの主次元の探索を徹底的に把握し,さらに理解することを目的とする。 本稿は,RL アプリケーションに関連する本質的なリスクに対処するため,近年の取り組みを要約した方法論とオープンな問題を包括的にレビューする。 安全かつ堅牢なRLの定義を議論し、提案した後、既存の研究成果を、RLエージェントの安全性と堅牢性を高めるアルゴリズム的なアプローチに分類する。 本研究では,不確実性推定,最適化手法,探索・探索トレードオフ,対人訓練などの手法について検討する。 シン・トゥ・リアル・トランスファーやドメイン適応を含む環境要因も、RLシステムが多様な動的環境にどのように適応できるかを理解するために精査されている。 さらに、人間の関与は分析の不可欠な要素であり、人間がこの文脈で果たせる幅広い役割を認識している。 重要なことは,安全で堅牢なRL実装の複雑さをナビゲートする実践者を支援するため,本論文では,合成された文献から得られた実践的なチェックリストを紹介することである。 チェックリストには、アルゴリズム設計、トレーニング環境の考慮、倫理的ガイドラインといった重要な側面が含まれている。 多くのアプリケーションドメインにおいて、RLシステムの責任あるデプロイを保証するため、開発者や政策立案者のためのリソースとして役立ちます。

Reinforcement Learning (RL) has shown remarkable success in solving relatively complex tasks, yet the deployment of RL systems in real-world scenarios poses significant challenges related to safety and robustness. This paper aims to identify and further understand those challenges thorough the exploration of the main dimensions of the safe and robust RL landscape, encompassing algorithmic, ethical, and practical considerations. We conduct a comprehensive review of methodologies and open problems that summarizes the efforts in recent years to address the inherent risks associated with RL applications. After discussing and proposing definitions for both safe and robust RL, the paper categorizes existing research works into different algorithmic approaches that enhance the safety and robustness of RL agents. We examine techniques such as uncertainty estimation, optimisation methodologies, exploration-exploitation trade-offs, and adversarial training. Environmental factors, including sim-to-real transfer and domain adaptation, are also scrutinized to understand how RL systems can adapt to diverse and dynamic surroundings. Moreover, human involvement is an integral ingredient of the analysis, acknowledging the broad set of roles that humans can take in this context. Importantly, to aid practitioners in navigating the complexities of safe and robust RL implementation, this paper introduces a practical checklist derived from the synthesized literature. The checklist encompasses critical aspects of algorithm design, training environment considerations, and ethical guidelines. It will serve as a resource for developers and policymakers alike to ensure the responsible deployment of RL systems in many application domains.
翻訳日:2024-04-02 13:15:05 公開日:2024-03-30
# 雑音環境におけるロバストアクティブ話者検出

Robust Active Speaker Detection in Noisy Environments ( http://arxiv.org/abs/2403.19002v2 )

ライセンス: Link先を確認
Siva Sai Nagender Vasireddy, Chenxu Zhang, Xiaohu Guo, Yapeng Tian, (参考訳) 本稿では,雑音環境における能動話者検出(ASD)の問題に対処し,頑健な能動話者検出(rASD)問題を定式化する。 既存のASDアプローチは、音声と視覚の両モードを利用するが、周囲の環境における非音声は、性能に悪影響を及ぼす可能性がある。 そこで本稿では,ノイズのない音声特徴を学習するためのガイダンスとして,音声と視覚の分離を利用した新しいフレームワークを提案する。 これらの機能はASDモデルで利用され、両方のタスクはエンドツーエンドのフレームワークで共同で最適化される。 提案フレームワークは,ASDの分離された音声を直接使用し,その2つのタスクを同時に最適化する,単純なケースケード2段階フレームワークにおいて発生する残雑音や音質の低下を緩和する。 音声特徴のロバスト性をさらに高め,固有の音声雑音に対処するために,音声分離器を訓練するための動的重み付き損失手法を提案する。 調査を容易にするために,実環境のノイズオーディオデータセットも収集した。 実験により、非音声雑音がASDモデルに大きく影響することを示し、提案手法は雑音環境下でのASD性能を改善する。 フレームワークは汎用的で、さまざまな ASD アプローチに適用して、堅牢性を改善することができる。 私たちのコード、モデル、データはリリースされます。

This paper addresses the issue of active speaker detection (ASD) in noisy environments and formulates a robust active speaker detection (rASD) problem. Existing ASD approaches leverage both audio and visual modalities, but non-speech sounds in the surrounding environment can negatively impact performance. To overcome this, we propose a novel framework that utilizes audio-visual speech separation as guidance to learn noise-free audio features. These features are then utilized in an ASD model, and both tasks are jointly optimized in an end-to-end framework. Our proposed framework mitigates residual noise and audio quality reduction issues that can occur in a naive cascaded two-stage framework that directly uses separated speech for ASD, and enables the two tasks to be optimized simultaneously. To further enhance the robustness of the audio features and handle inherent speech noises, we propose a dynamic weighted loss approach to train the speech separator. We also collected a real-world noise audio dataset to facilitate investigations. Experiments demonstrate that non-speech audio noises significantly impact ASD models, and our proposed approach improves ASD performance in noisy environments. The framework is general and can be applied to different ASD approaches to improve their robustness. Our code, models, and data will be released.
翻訳日:2024-04-02 13:15:05 公開日:2024-03-30
# Egocentric Scene-Aware Human Trajectory Prediction

Egocentric Scene-aware Human Trajectory Prediction ( http://arxiv.org/abs/2403.19026v2 )

ライセンス: Link先を確認
Weizhuo Wang, C. Karen Liu, Monroe Kennedy III, (参考訳) ウェアラブルなコラボレーティブロボットは、転倒防止支援を必要とする人や、外骨格を装着する人を助ける。 このようなロボットは、自我中心の視覚と周囲のシーンに基づいて、着用者の自我運動を予測する必要がある。 本研究では、身体に装着したカメラとセンサーを利用して、複雑な環境下での人間の着用者の軌道を予測した。 我々は,エゴモーション予測の研究を容易にするために,ユーザの視点を中心とした総合的な歩行シーンナビゲーションデータセットを収集した。 本研究では,周囲の静的なシーン上での人間の動作条件を予測する手法を提案する。 提案手法は,ユーザによる環境観察を考慮した拡散モデルを用いて,将来的な軌道の分布を推定する。 本稿では,ユーザの周囲の視覚記憶を符号化するコンパクト表現と,拡散モデルのリアルタイム推論を高速化する効率的なサンプル生成手法を提案する。 その結果、衝突回避と軌道モードのカバレッジの重要指標において、既存の手法よりも優れた結果が得られた。

Wearable collaborative robots stand to assist human wearers who need fall prevention assistance or wear exoskeletons. Such a robot needs to be able to predict the ego motion of the wearer based on egocentric vision and the surrounding scene. In this work, we leveraged body-mounted cameras and sensors to anticipate the trajectory of human wearers through complex surroundings. To facilitate research in ego-motion prediction, we have collected a comprehensive walking scene navigation dataset centered on the user's perspective. We present a method to predict human motion conditioning on the surrounding static scene. Our method leverages a diffusion model to produce a distribution of potential future trajectories, taking into account the user's observation of the environment. We introduce a compact representation to encode the user's visual memory of the surroundings, as well as an efficient sample-generating technique to speed up real-time inference of a diffusion model. We ablate our model and compare it to baselines, and results show that our model outperforms existing methods on key metrics of collision avoidance and trajectory mode coverage.
翻訳日:2024-04-02 13:15:05 公開日:2024-03-30
# ミニマルインタラクションによる3次元シーン再構成

Total-Decom: Decomposed 3D Scene Reconstruction with Minimal Interaction ( http://arxiv.org/abs/2403.19314v2 )

ライセンス: Link先を確認
Xiaoyang Lyu, Chirui Chang, Peng Dai, Yang-Tian Sun, Xiaojuan Qi, (参考訳) 多視点画像からのシーン再構成は、コンピュータビジョンとグラフィックスの基本的な問題である。 最近のニューラル暗黙的表面再構成法は高品質な結果を得たが、自然分解物や複雑な対象/背景の合成が存在しないため、再構成されたシーンの3次元形状の編集と操作は難しいままである。 本稿では,人間同士の相互作用を最小限に抑えた3次元再構成手法であるTotal-Decomを提案する。 提案手法は,Segment Anything Model (SAM) とハイブリッド型暗黙的なニューラルサーフェス表現をシームレスに統合し,メッシュベースの領域成長技術を用いて正確な3次元オブジェクト分解を行う。 トータルデコムは、分解の粒度と品質をリアルタイムに制御しながら、最小限の人間のアノテーションを必要とする。 提案手法をベンチマークデータセット上で広範囲に評価し,アニメーションやシーン編集などの下流アプリケーションの可能性を示す。 コードはhttps://github.com/CVMI-Lab/Total-Decom.gitで公開されている。

Scene reconstruction from multi-view images is a fundamental problem in computer vision and graphics. Recent neural implicit surface reconstruction methods have achieved high-quality results; however, editing and manipulating the 3D geometry of reconstructed scenes remains challenging due to the absence of naturally decomposed object entities and complex object/background compositions. In this paper, we present Total-Decom, a novel method for decomposed 3D reconstruction with minimal human interaction. Our approach seamlessly integrates the Segment Anything Model (SAM) with hybrid implicit-explicit neural surface representations and a mesh-based region-growing technique for accurate 3D object decomposition. Total-Decom requires minimal human annotations while providing users with real-time control over the granularity and quality of decomposition. We extensively evaluate our method on benchmark datasets and demonstrate its potential for downstream applications, such as animation and scene editing. The code is available at https://github.com/CVMI-Lab/Total-Decom.git.
翻訳日:2024-04-02 13:15:05 公開日:2024-03-30
# スケーラブルなニューラルコンビネーション最適化のための自己改善学習

Self-Improved Learning for Scalable Neural Combinatorial Optimization ( http://arxiv.org/abs/2403.19561v2 )

ライセンス: Link先を確認
Fu Luo, Xi Lin, Zhenkun Wang, Xialiang Tong, Mingxuan Yuan, Qingfu Zhang, (参考訳) The end-to-end Neural combinatorial Optimization (NCO) method shows promising performance in solve complex combinatorial optimization problem without without the need of expert design。 しかし、既存の手法は大規模な問題に悩まされ、実用性に支障をきたす。 この制限を克服するために、ニューラル組合せ最適化のスケーラビリティを向上させるための新しい自己改善学習法(SIL)を提案する。 具体的には,ラベル付きデータなしで大規模問題インスタンス上での直接モデルトレーニングを可能にする,効率的な自己改善機構を開発する。 革新的な局所的再構成手法によって、この手法は、効率的なモデルトレーニングを導くための擬似ラベルとして、より優れた解を反復的に生成することができる。 さらに,計算オーバーヘッドの少ない大規模組合せ問題インスタンスを効率的に処理するための線形複雑性注意機構を設計する。 本研究では,TSPとCVRP(Capacitated Vehicle Routing Problem)に関する一様分布と実空間分布の両方で最大100Kノードの総合的な実験を行い,本手法のスケーラビリティを実証した。

The end-to-end neural combinatorial optimization (NCO) method shows promising performance in solving complex combinatorial optimization problems without the need for expert design. However, existing methods struggle with large-scale problems, hindering their practical applicability. To overcome this limitation, this work proposes a novel Self-Improved Learning (SIL) method for better scalability of neural combinatorial optimization. Specifically, we develop an efficient self-improved mechanism that enables direct model training on large-scale problem instances without any labeled data. Powered by an innovative local reconstruction approach, this method can iteratively generate better solutions by itself as pseudo-labels to guide efficient model training. In addition, we design a linear complexity attention mechanism for the model to efficiently handle large-scale combinatorial problem instances with low computation overhead. Comprehensive experiments on the Travelling Salesman Problem (TSP) and the Capacitated Vehicle Routing Problem (CVRP) with up to 100K nodes in both uniform and real-world distributions demonstrate the superior scalability of our method.
翻訳日:2024-04-02 13:15:05 公開日:2024-03-30
# GlORIE-SLAM: グローバルに最適化されたRGBのみの暗黙のポイントクラウドSLAM

GlORIE-SLAM: Globally Optimized RGB-only Implicit Encoding Point Cloud SLAM ( http://arxiv.org/abs/2403.19549v2 )

ライセンス: Link先を確認
Ganlin Zhang, Erik Sandström, Youmin Zhang, Manthan Patel, Luc Van Gool, Martin R. Oswald, (参考訳) RGBのみの高密度局所マッピング(SLAM)の最近の進歩は、グリッドベースの暗黙的エンコーディングと/またはグローバルマップの効率的な実現と一貫性の獲得に苦慮している。 そこで本研究では,キーフレームのポーズや深度更新に適応するフレキシブルなニューラルポイントクラウドシーン表現を用いた,RGBのみの高密度SLAMシステムを提案する。 RGBのみのSLAMのもう一つの重要な課題は、幾何学的事前の欠如である。 この問題を軽減するため,単眼深度推定器の助けを借りて,単眼深度とともに鍵フレームのポーズと深さを最適化するバンドル調整のための新しいDSPO層を導入する。 最後に、ループ閉鎖とオンライングローバルバンドル調整の利点を生かし、Replica、TUM-RGBD、ScanNetデータセットの追跡、マッピング、レンダリングの精度において、既存の高密度ニューラルネットワークRGB SLAM手法よりも優れているか、競争力がある。 ソースコードは利用可能になる。

Recent advancements in RGB-only dense Simultaneous Localization and Mapping (SLAM) have predominantly utilized grid-based neural implicit encodings and/or struggle to efficiently realize global map and pose consistency. To this end, we propose an efficient RGB-only dense SLAM system using a flexible neural point cloud scene representation that adapts to keyframe poses and depth updates, without needing costly backpropagation. Another critical challenge of RGB-only SLAM is the lack of geometric priors. To alleviate this issue, with the aid of a monocular depth estimator, we introduce a novel DSPO layer for bundle adjustment which optimizes the pose and depth of keyframes along with the scale of the monocular depth. Finally, our system benefits from loop closure and online global bundle adjustment and performs either better or competitive to existing dense neural RGB SLAM methods in tracking, mapping and rendering accuracy on the Replica, TUM-RGBD and ScanNet datasets. The source code will be made available.
翻訳日:2024-04-02 11:22:19 公開日:2024-03-30