このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241016となっている論文です。

PDF登録状況(公開日: 20241016)

TitleAuthorsAbstract論文公表日・翻訳日
# 気候モデルパラメータ化のための物理的に一貫性のある深層学習を目指して

Towards Physically Consistent Deep Learning For Climate Model Parameterizations ( http://arxiv.org/abs/2406.03920v3 )

ライセンス: Link先を確認
Birgit Kühbacher, Fernando Iglesias-Suarez, Niki Kilbertus, Veronika Eyring, (参考訳) 気候変動の理解と予測において、気候モデルは重要な役割を担っている。 その複雑さのため、その水平分解能は約40-100kmで、雲や対流などの過程を解明するには大きすぎるが、パラメータ化によって近似する必要がある。 これらのパラメータ化は、気候予測における体系的な誤りと大きな不確実性の主な原因である。 深層学習(DL)に基づくパラメータ化は、計算に高価で高解像度のショートシミュレーションのデータに基づいて訓練されており、その点において気候モデルを改善するための大きな可能性を示している。 しかし、解釈可能性の欠如と、素早い非物理的相関を学習する傾向は、気候シミュレーションの信頼性を低下させる。 本稿では,DLに基づくパラメータ化のための効率的な教師付き学習フレームワークを提案する。 まず、対象の物理プロセスを決定する重要な特徴を明らかにする。 その後、ニューラルネットワークは、関連する機能のみを使用して微調整される。 提案手法は,入力の小さな部分集合を実際の物理的ドライバとして確実に識別し,したがって素早い非物理的関係を除去する。 その結果、物理的に一貫した解釈可能なニューラルネットワークを設計し、制約のないブラックボックスDLベースのパラメータ化の予測性能を維持した。

Climate models play a critical role in understanding and projecting climate change. Due to their complexity, their horizontal resolution of about 40-100 km remains too coarse to resolve processes such as clouds and convection, which need to be approximated via parameterizations. These parameterizations are a major source of systematic errors and large uncertainties in climate projections. Deep learning (DL)-based parameterizations, trained on data from computationally expensive short, high-resolution simulations, have shown great promise for improving climate models in that regard. However, their lack of interpretability and tendency to learn spurious non-physical correlations result in reduced trust in the climate simulation. We propose an efficient supervised learning framework for DL-based parameterizations that leads to physically consistent models with improved interpretability and negligible computational overhead compared to standard supervised training. First, key features determining the target physical processes are uncovered. Subsequently, the neural network is fine-tuned using only those relevant features. We show empirically that our method robustly identifies a small subset of the inputs as actual physical drivers, therefore removing spurious non-physical relationships. This results in by design physically consistent and interpretable neural networks while maintaining the predictive performance of unconstrained black-box DL-based parameterizations.
翻訳日:2024-11-09 01:44:51 公開日:2024-10-16
# 超高精細画像復元 : 新しいベンチマークとデュアルインタラクション優先型ソリューション

Ultra-High-Definition Image Restoration: New Benchmarks and A Dual Interaction Prior-Driven Solution ( http://arxiv.org/abs/2406.13607v3 )

ライセンス: Link先を確認
Liyan Wang, Cong Wang, Jinshan Pan, Xiaofeng Liu, Weixiang Zhou, Xiaoran Sun, Wei Wang, Zhixun Su, (参考訳) 超高精細画像復元(UHD)は,その実用的需要から注目されている。 本稿では, UHD-Snow と UHD-Rain という, UHD 雪と降雨のベンチマークを構築し, この分野での不足を解消する。 UHD-Snow/UHD-Rainは雨・雪の物理過程をシミュレーションして構築され、それぞれのベンチマークには4K解像度の3200の劣化/クラー画像対が含まれている。 さらに,これらの先行画像の空間的および詳細的な寄与により,モデル設計の勾配や正規化を考慮し,有効なUHD画像復元ソリューションを提案する。 具体的には,本手法は2つの枝を含む。 (a)高分解能空間における特徴融合再生枝 (b)低分解能空間における先行的特徴相互作用分岐。 前者は高精細な特徴を学習し、前者は高精細な画像を再構成するために事前誘導された低精細な特徴を融合する。 これらの先行処理をよりよく活用するために、前者は正常な特徴と勾配の先行処理を融合させ、後者は強化された先行処理の類似性を計算し、さらに二重誘導フィルタリングを利用して二重先行処理の特性相互作用を増強する、単一先行処理と二重先行処理を導入する。 提案手法は,UHD画像の低照度化,デハージング,デブロアリング,デコノイング,デコノイングに対して,新規および既存両方の公開データセットの実験を行い,その現状を実証する。 ソースコードとベンチマークは \url{https://github.com/wlydlut/UHDDIP} で公開されている。

Ultra-High-Definition (UHD) image restoration has acquired remarkable attention due to its practical demand. In this paper, we construct UHD snow and rain benchmarks, named UHD-Snow and UHD-Rain, to remedy the deficiency in this field. The UHD-Snow/UHD-Rain is established by simulating the physics process of rain/snow into consideration and each benchmark contains 3200 degraded/clear image pairs of 4K resolution. Furthermore, we propose an effective UHD image restoration solution by considering gradient and normal priors in model design thanks to these priors' spatial and detail contributions. Specifically, our method contains two branches: (a) feature fusion and reconstruction branch in high-resolution space and (b) prior feature interaction branch in low-resolution space. The former learns high-resolution features and fuses prior-guided low-resolution features to reconstruct clear images, while the latter utilizes normal and gradient priors to mine useful spatial features and detail features to guide high-resolution recovery better. To better utilize these priors, we introduce single prior feature interaction and dual prior feature interaction, where the former respectively fuses normal and gradient priors with high-resolution features to enhance prior ones, while the latter calculates the similarity between enhanced prior ones and further exploits dual guided filtering to boost the feature interaction of dual priors. We conduct experiments on both new and existing public datasets and demonstrate the state-of-the-art performance of our method on UHD image low-light enhancement, dehazing, deblurring, desonwing, and deraining. The source codes and benchmarks are available at \url{https://github.com/wlydlut/UHDDIP}.
翻訳日:2024-11-09 01:22:29 公開日:2024-10-16
# 動的自己回復型コミュニティ検出のための量子最適化の評価

Evaluating Quantum Optimization for Dynamic Self-Reliant Community Detection ( http://arxiv.org/abs/2407.06773v2 )

ライセンス: Link先を確認
David Bucher, Daniel Porawski, Benedikt Wimmer, Jonas Nüßlein, Corey O'Meara, Naeimeh Mohseni, Giorgio Cortiana, Claudia Linnhoff-Popien, (参考訳) 電力グリッドのパーティショニングは、回復力のある分散グリッドにとって重要な要件である。 電力生産は徐々に分散側にシフトするので、自己回復グリッドサブセットの動的同定は運用上重要である。 この問題は、よく知られたNP-hard Community Detection (CD)問題への修正として表現できる。 我々は、量子計算を用いて解くのに適した擬似非制約バイナリ最適化(QUBO)問題として定式化し、より高速に高品質なパーティションを見つけることが期待されている。 この定式化は、最大自己充足力とそれらの間を流れる最小限のパワーを持つコミュニティを見つけることを目的としている。 大規模化問題に対する量子最適化を評価するために,サブプロブレムQUBOを解く階層的分割法を適用し,格子分割を行う。 さらに,自己信頼を含むルーヴァンヒューリスティックのカスタマイズを提案する。 評価において、この問題は指数型ランタイムのスケーリングを古典的に検討することを最初に示す。 次に、異なるIEEEパワーシステムテストケースを用いて、D-Waveのハイブリッド量子古典解法、古典的ヒューリスティックス、分枝結合解法といった、複数のアプローチのソリューション品質をベンチマークする。 その結果, ハイブリッド解法は, 与えられた時間枠内で達成された解の質に関して, ディバイシブアルゴリズムと非ディバイシブアルゴリズムの両方で, 非常に有望な結果をもたらすことがわかった。 D-Waveの量子アニール(QA)ハードウェアを直接利用すると、パーティショニングは劣る。

Power grid partitioning is an important requirement for resilient distribution grids. Since electricity production is progressively shifted to the distribution side, dynamic identification of self-reliant grid subsets becomes crucial for operation. This problem can be represented as a modification to the well-known NP-hard Community Detection (CD) problem. We formulate it as a Quadratic Unconstrained Binary Optimization (QUBO) problem suitable for solving using quantum computation{\color{blue}, which is expected to find better-quality partitions faster. The formulation aims to find communities with maximal self-sufficiency and minimal power flowing between them}. To assess quantum optimization for sizeable problems, we apply a hierarchical divisive method that solves sub-problem QUBOs to perform grid bisections. Furthermore, we propose a customization of the Louvain heuristic that includes self-reliance. In the evaluation, we first demonstrate that this problem examines exponential runtime scaling classically. Then, using different IEEE power system test cases, we benchmark the solution quality for multiple approaches: D-Wave's hybrid quantum-classical solvers, classical heuristics, and a branch-and-bound solver. As a result, we observe that the hybrid solvers provide very promising results, both with and without the divisive algorithm, regarding solution quality achieved within a given time frame. Directly utilizing D-Wave's Quantum Annealing (QA) hardware shows inferior partitioning.
翻訳日:2024-11-08 23:02:19 公開日:2024-10-16
# タスクベクトルカスタマイズによるパーソナライズされた画像審美評価のスケールアップ

Scaling Up Personalized Image Aesthetic Assessment via Task Vector Customization ( http://arxiv.org/abs/2407.07176v2 )

ライセンス: Link先を確認
Jooyeol Yun, Jaegul Choo, (参考訳) パーソナライズされた画像美的評価の課題は、個別の好みと少数のユーザが提供する入力とを一致させるために、審美的スコア予測モデルをカスタマイズすることである。 しかし、現在のアプローチのスケーラビリティと一般化能力は、高価なキュレートされたデータベースに依存しているため、かなり制限されている。 この長期にわたるスケーラビリティの課題を克服するため,画像の美的評価や画像品質評価に手軽に利用可能なデータベースを活用する,ユニークなアプローチを提案する。 具体的には、各データベースを、パーソナライズポテンシャルの様々な度合いを示す画像スコア回帰タスクとみなす。 各データベースの特徴を表すタスクベクトルの最適な組み合わせを決定することにより、個人向けにパーソナライズされたモデルを作成することに成功した。 複数のモデルを統合するこのアプローチは、大量のデータを活用することができます。 これまでのアプローチでは,現実のシナリオに高い適用性を持たせるのに苦戦していた。 我々の新しいアプローチは、パーソナライズされた審美的評価のためのスケーラブルなソリューションを提供し、将来の研究のための高い標準を確立することで、この分野を著しく前進させます。 https://yeolj00.github.io/personal-projects/personalized-aesthetics/

The task of personalized image aesthetic assessment seeks to tailor aesthetic score prediction models to match individual preferences with just a few user-provided inputs. However, the scalability and generalization capabilities of current approaches are considerably restricted by their reliance on an expensive curated database. To overcome this long-standing scalability challenge, we present a unique approach that leverages readily available databases for general image aesthetic assessment and image quality assessment. Specifically, we view each database as a distinct image score regression task that exhibits varying degrees of personalization potential. By determining optimal combinations of task vectors, known to represent specific traits of each database, we successfully create personalized models for individuals. This approach of integrating multiple models allows us to harness a substantial amount of data. Our extensive experiments demonstrate the effectiveness of our approach in generalizing to previously unseen domains-a challenge previous approaches have struggled to achieve-making it highly applicable to real-world scenarios. Our novel approach significantly advances the field by offering scalable solutions for personalized aesthetic assessment and establishing high standards for future research. https://yeolj00.github.io/personal-projects/personalized-aesthetics/
翻訳日:2024-11-08 22:51:19 公開日:2024-10-16
# 環境レビュー文書理解のための長期大言語モデルの検討

Examining Long-Context Large Language Models for Environmental Review Document Comprehension ( http://arxiv.org/abs/2407.07321v2 )

ライセンス: Link先を確認
Hung Phan, Anurag Acharya, Rounak Meyur, Sarthak Chaturvedi, Shivam Sharma, Mike Parker, Dan Nally, Ali Jannesari, Karl Pazdernik, Mahantesh Halappanavar, Sai Munikoti, Sameera Horawalavithana, (参考訳) LLMがますます普及するにつれて、研究者はこれらのモデルに提供される知識を強化するために様々な手法を試してきた。 長いコンテキストと検索強化世代(RAG)は、最近人気が高まった2つの方法である。 本研究では,ニッチ領域における質問応答(QA)タスクを活用することにより,これらの手法の利点を検討する。 LLMベースのQAシステムの有効性は、トリビアや文学などのポピュラーなドメインでは許容できるレベルに確立されているが、伝統的に専門知識を必要とするニッチなドメインでは確立されていない。 我々は,米国連邦政府が国立環境環境法(NEPA)に従って作成した環境影響文書から発せられる質問に答える際に,NEPAQuAD1.0ベンチマークを構築し,長文LLM(Claude Sonnet, Gemini, GPT-4, Llama 3.1, Mistral)の性能を評価する。 NEPA文書に存在する法律・技術・コンプライアンス関連情報のニュアンスを、異なる状況下で理解するLLMの能力を具体的に測定する。 我々は、LLMの内部的なNAEPA知識を文脈のない質問を提供することでテストし、LLMが長いNAEPA文書に存在するコンテキスト情報をどのように合成し、質問/回答作業を容易にするかを評価する。 異なるタイプの質問(例えば、問題解決、発散など)を扱う際のモデルの性能を比較します。 以上の結果から,RAG を用いたモデルは LLM の選択によらず,PDF の文脈でのみ提供されるモデルよりも有意に優れていたことが示唆された。 さらに分析した結果,多くのモデルでは,解答問題や解答問題よりもクローズド型質問(Yes/No)の方が解答に優れていたことが判明した。

As LLMs become increasingly ubiquitous, researchers have tried various techniques to augment the knowledge provided to these models. Long context and retrieval-augmented generation (RAG) are two such methods that have recently gained popularity. In this work, we examine the benefits of both of these techniques by utilizing question answering (QA) task in a niche domain. While the effectiveness of LLM-based QA systems has already been established at an acceptable level in popular domains such as trivia and literature, it has not often been established in niche domains that traditionally require specialized expertise. We construct the NEPAQuAD1.0 benchmark to evaluate the performance of five long-context LLMs -- Claude Sonnet, Gemini, GPT-4, Llama 3.1, and Mistral -- when answering questions originating from Environmental Impact Statements prepared by U.S. federal government agencies in accordance with the National Environmental Environmental Act (NEPA). We specifically measure the ability of LLMs to understand the nuances of legal, technical, and compliance-related information present in NEPA documents in different contextual scenarios. We test the LLMs' internal prior NEPA knowledge by providing questions without any context, as well as assess how LLMs synthesize the contextual information present in long NEPA documents to facilitate the question/answering task. We compare the performance of the models in handling different types of questions (e.g., problem-solving, divergent, etc.). Our results suggest that RAG powered models significantly outperform those provided with only the PDF context in terms of answer accuracy, regardless of the choice of the LLM. Our further analysis reveals that many models perform better answering closed type questions (Yes/No) than divergent and problem-solving questions.
翻訳日:2024-11-08 22:40:08 公開日:2024-10-16
# 隠れアライメントを用いたビデオ・ツー・オーディオ生成

Video-to-Audio Generation with Hidden Alignment ( http://arxiv.org/abs/2407.07464v2 )

ライセンス: Link先を確認
Manjie Xu, Chenxing Li, Xinyi Tu, Yong Ren, Rilin Chen, Yu Gu, Wei Liang, Dong Yu, (参考訳) ビデオ入力に応じた意味的・時間的に整合した音声コンテンツを生成することは研究者の焦点となり、特にテキスト・ビデオ・ジェネレーションにおける顕著なブレークスルーの後である。 本研究では,視覚エンコーダ,補助埋め込み,データ拡張技術という3つの重要な側面に着目し,映像から音声への生成パラダイムに関する洞察を提供することを目的とする。 単純だが驚くほど効果的な直観に基づいて構築された基礎モデルから始めると、様々な視覚エンコーダや補助的な埋め込みをアブレーション研究を通して探索する。 生成品質とビデオ・オーディオ同期の整合性を重視した包括的評価パイプラインを用いて,本モデルが最先端のビデオ・オーディオ生成機能を示すことを示す。 さらに、生成フレームワークの全体的な能力向上に異なるデータ拡張手法が与える影響について、批判的な洞察を提供する。 セマンティックおよび時間的視点から同期音声を生成するという課題を前進させる可能性を示す。 これらの洞察が、より現実的で正確なオーディオ視覚生成モデルを開発するための足掛かりになることを期待している。

Generating semantically and temporally aligned audio content in accordance with video input has become a focal point for researchers, particularly following the remarkable breakthrough in text-to-video generation. In this work, we aim to offer insights into the video-to-audio generation paradigm, focusing on three crucial aspects: vision encoders, auxiliary embeddings, and data augmentation techniques. Beginning with a foundational model built on a simple yet surprisingly effective intuition, we explore various vision encoders and auxiliary embeddings through ablation studies. Employing a comprehensive evaluation pipeline that emphasizes generation quality and video-audio synchronization alignment, we demonstrate that our model exhibits state-of-the-art video-to-audio generation capabilities. Furthermore, we provide critical insights into the impact of different data augmentation methods on enhancing the generation framework's overall capacity. We showcase possibilities to advance the challenge of generating synchronized audio from semantic and temporal perspectives. We hope these insights will serve as a stepping stone toward developing more realistic and accurate audio-visual generation models.
翻訳日:2024-11-08 22:40:08 公開日:2024-10-16
# 直交学習と自己正規化による視覚言語モデルのロバスト性向上

Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization ( http://arxiv.org/abs/2407.08374v3 )

ライセンス: Link先を確認
Jinlong Li, Dong Zhao, Zequn Jie, Elisa Ricci, Lin Ma, Nicu Sebe, (参考訳) 特定の下流タスクのためのCLIPのような視覚言語モデル(VLM)の効率的な微調整が注目されている。 これまでの作業は主に、CLIPをさまざまなダウンストリームタスクに適応させる学習の迅速化に重点を置いていたが、小さなデータセットで微調整された場合、タスク過度な調整に悩まされていた。 本稿では,事前訓練した重量を効率よく微調整し,頑健さと一般化を向上する直交微調整手法を提案する。一方,自己正規化戦略は,OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。 具体的には、トレーニング可能な直交行列をトランスアーキテクチャにシームレスに注入し、トレーニング中に直交制約を課し、標準保存特性の恩恵を受けながら、トレーニング済みの重みを凍結したまま安定かつ迅速に収束させる。 微調整による偏差を軽減するため、バイパス方式でトレーニング中のモデルの一般化を維持するために、自己正規化戦略をさらに活用する。 さらに、小さなデータセットシナリオ下で下流タスクのサンプルの多様性を強化するために、まず注意深いCutOutデータ拡張を検討し、効率のよい微調整を強化し、特定の下流タスクのモデル適合能力を向上する。 そして,本手法が特定の下流性能をどのように改善し,一般化可能性を維持するかの理論解析を支援する。 筆者らはCLIPとCoOpを再検討し、より精巧なプロンプト学習手法と同等に、少数ショット画像のクラスフィシエーションシナリオのモデルを効果的に改善した。

Efficient fine-tuning of vision-language models (VLMs) like CLIP for specific downstream tasks is gaining significant attention. Previous works primarily focus on prompt learning to adapt the CLIP into a variety of downstream tasks, however, suffering from task overfitting when fine-tuned on a small data set. In this paper, we introduce an orthogonal fine-tuning method for efficiently fine-tuning pretrained weights and enabling enhanced robustness and generalization, while a self-regularization strategy is further exploited to maintain the stability in terms of zero-shot generalization of VLMs, dubbed OrthSR. Specifically, trainable orthogonal matrices are injected seamlessly into the transformer architecture and enforced with orthogonality constraint during the training, benefiting from the norm-preserving property and thus leading to stable and faster convergence, while keeping the pre-trained weights frozen. To alleviate deviation from fine-tuning, a self-regularization strategy is further employed to retain the generalization of the model during the training within a bypass manner. In addition, to enrich the sample diversity for downstream tasks under the small dataset scenario, we first explore attentive CutOut data augmentation to boost the efficient fine-tuning, leading to better model fitting capacity for specific downstream task. Then we support the theoretical analysis on how our approach improves the specific downstream performance and maintains the generalizability. For the first time, we revisit the CLIP and CoOp with our method to effectively improve the model on few-shot image classficiation scenario on par with the elaborated prompt learning methods.
翻訳日:2024-11-08 22:29:08 公開日:2024-10-16
# ScaleFlow++:ビデオからの3Dモーションのロバストで正確な推定

ScaleFlow++: Robust and Accurate Estimation of 3D Motion from Video ( http://arxiv.org/abs/2407.09797v2 )

ライセンス: Link先を確認
Han Ling, Quansen Sun, (参考訳) 3Dモーションの知覚と理解は、自律運転、ロボット、動き予測といった分野における中核的な技術である。 本稿では,3次元モーション認識手法であるScaleFlow++を提案する。 たった1対のRGBイメージで、ScaleFlow++は光学フローとモーションインディープス(MID)を強く見積もることができる。 既存のほとんどの手法は、2つのRGBフレームまたは光学フローから直接MIDを回帰し、不正確な不安定な結果をもたらす。 我々の重要な洞察は、クロススケールマッチングであり、異なるスケールの画像のペアでオブジェクトをマッチングすることで、深い動きの手がかりを抽出する。 従来の方法とは異なり、ScaleFlow++は光学フローとMID推定を統一アーキテクチャに統合し、特徴マッチングに基づいて光学フローとMIDのエンドツーエンドを推定する。 さらに,グローバル初期化ネットワーク,グローバルイテレーティブオプティマイザ,ハイブリッドトレーニングパイプラインなどのモジュールも提案した。 KITTIでは、ScaleFlow++は、SF-allを6.21から5.79に削減し、最高のモノクロシーンフロー推定性能を達成した。 MIDの評価はRGBDベースの手法を超えている。 さらに、ScaleFlow++は、厳密なシーンと非厳密なシーンの両方において、驚くべきゼロショットの一般化パフォーマンスを達成した。 コードは \url{https://github.com/HanLingsgjk/CSCV} で入手できる。

Perceiving and understanding 3D motion is a core technology in fields such as autonomous driving, robots, and motion prediction. This paper proposes a 3D motion perception method called ScaleFlow++ that is easy to generalize. With just a pair of RGB images, ScaleFlow++ can robustly estimate optical flow and motion-in-depth (MID). Most existing methods directly regress MID from two RGB frames or optical flow, resulting in inaccurate and unstable results. Our key insight is cross-scale matching, which extracts deep motion clues by matching objects in pairs of images at different scales. Unlike previous methods, ScaleFlow++ integrates optical flow and MID estimation into a unified architecture, estimating optical flow and MID end-to-end based on feature matching. Moreover, we also proposed modules such as global initialization network, global iterative optimizer, and hybrid training pipeline to integrate global motion information, reduce the number of iterations, and prevent overfitting during training. On KITTI, ScaleFlow++ achieved the best monocular scene flow estimation performance, reducing SF-all from 6.21 to 5.79. The evaluation of MID even surpasses RGBD-based methods. In addition, ScaleFlow++ has achieved stunning zero-shot generalization performance in both rigid and nonrigid scenes. Code is available at \url{https://github.com/HanLingsgjk/CSCV}.
翻訳日:2024-11-08 21:54:45 公開日:2024-10-16
# sPhinX:N-shot Guided Promptingによる多言語指導の高精度微調整

sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting ( http://arxiv.org/abs/2407.09879v3 )

ライセンス: Link先を確認
Sanchit Ahuja, Kumar Tanmay, Hardik Hansrajbhai Chauhan, Barun Patra, Kriti Aggarwal, Luciano Del Corro, Arindam Mitra, Tejas Indulal Dhamecha, Ahmed Awadallah, Monojit Choudhary, Vishrav Chaudhary, Sunayana Sitaram, (参考訳) 英語におけるLLMの顕著な成功にもかかわらず、英語以外の言語では性能に大きな差がある。 そこで本研究では,英語から50言語への命令応答対を選択的に翻訳して生成する,多言語合成命令チューニングデータセット sPhinX を提案する。 sPhinxの有効性は、Mistral-7BとPhi-Smallの2つの最先端モデルを微調整し、推論、質問応答、理解、機械翻訳をテストする多言語ベンチマークの総合的なスイートで評価することで検証する。 以上の結果から, sPhinXを微調整したMistral-7BとPhi-Smallは, 両モデルにおいて, 基本モデルと比較した場合, 平均5%の精度で性能が向上した。 また,これらのモデルの性能をバニラファインチューニングと比較して9%,4%向上させるNショットサンプルを各ファインチューニングサンプルに組み込む戦略を考案した。 また、データキュレーション手法の有効性を示すため、元のデータセットを対象言語に直接変換し、両モデルでそれぞれ7%、4%の増加を観察する。 sPhinXは、効率と多様性の両方で、他の多言語命令チューニングデータセットよりも優れており、データセット作成コストが削減されている。 標準のLLMベンチマークでも高いパフォーマンスを維持しており、最小限のレグレッションを保っている。

Despite the remarkable success of LLMs in English, there is a significant gap in performance in non-English languages. In order to address this, we introduce a novel recipe for creating a multilingual synthetic instruction tuning dataset, sPhinX, which is created by selectively translating instruction response pairs from English into 50 languages. We test the effectiveness of sPhinx by using it to fine-tune two state-of-the-art models, Mistral-7B and Phi-Small and then evaluating them across a comprehensive suite of multilingual benchmarks that test reasoning, question answering, reading comprehension and machine translation. Our results show that Mistral-7B and Phi-Small fine-tuned with sPhinX perform better on an average by 5%pt for both the models when compared to the base variants of these models. We also devise a strategy to incorporate N-shot examples in each fine-tuning sample which further boosts the performance of these models by 9%pt and 4%pt respectively respectively compared to vanilla fine-tuning. To show efficacy of our data curation approach, we also directly translate our original dataset to the target languages, and observe an increase of 7%pt and 4%pt on both the models respectively. sPhinX outperforms other multilingual instruction tuning datasets in both efficiency and diversity, reducing dataset creation costs. It also maintains strong performance on standard English LLM benchmarks, with minimal regression.
翻訳日:2024-11-08 21:54:45 公開日:2024-10-16
# 大規模言語モデルの機械論的解釈可能性と金融サービス産業への応用

Mechanistic interpretability of large language models with applications to the financial services industry ( http://arxiv.org/abs/2407.11215v2 )

ライセンス: Link先を確認
Ashkan Golgoon, Khashayar Filom, Arjun Ravi Kannan, (参考訳) GPT(Generative Pre-trained Transformers)のような大規模言語モデルは、幅広いアプリケーションにまたがる優れた機能を示している。 それにもかかわらず、本質的な複雑さのため、これらのモデルは内部決定過程を解釈する上で大きな課題をもたらす。 この透明性の欠如は、偏見、公平性、信頼性に関する懸念と説明責任が最重要事項である金融機関への適応に関して重要な課題を生じさせる。 機械的解釈可能性(Mechanistic Interpretability)は、トランスフォーマーのような複雑なAIモデルをリバースエンジニアリングすることを目的としている。 本稿では,金融サービスアプリケーションで使用する大規模言語モデルの内部構造に光を当てるために,機械的解釈可能性の利用を先駆的に進める。 コンプライアンス監視のためにアルゴリズムタスクをどのように設計するかの例をいくつか提示する。 特に,フェアレンディング法違反の可能性を特定するために,GPT-2スモールの注意パターンについて検討する。 直接ロジット属性を用いて,各層と対応するアテンションヘッドの残流のロジット差に対する寄与について検討した。 最後に、クリーンで破損したプロンプトを設計し、さらにタスク完了コンポーネントをローカライズするための因果介入手法としてアクティベーションパッチを使用する。 我々は、(肯定的な)ヘッドが10.2ドル(ヘッド2ドル、レイヤ10ドル)、10.7ドル、11.3ドル、および(否定的な)ヘッドがタスク完了において重要な役割を果たすのを観察している。

Large Language Models such as GPTs (Generative Pre-trained Transformers) exhibit remarkable capabilities across a broad spectrum of applications. Nevertheless, due to their intrinsic complexity, these models present substantial challenges in interpreting their internal decision-making processes. This lack of transparency poses critical challenges when it comes to their adaptation by financial institutions, where concerns and accountability regarding bias, fairness, and reliability are of paramount importance. Mechanistic interpretability aims at reverse engineering complex AI models such as transformers. In this paper, we are pioneering the use of mechanistic interpretability to shed some light on the inner workings of large language models for use in financial services applications. We offer several examples of how algorithmic tasks can be designed for compliance monitoring purposes. In particular, we investigate GPT-2 Small's attention pattern when prompted to identify potential violation of Fair Lending laws. Using direct logit attribution, we study the contributions of each layer and its corresponding attention heads to the logit difference in the residual stream. Finally, we design clean and corrupted prompts and use activation patching as a causal intervention method to localize our task completion components further. We observe that the (positive) heads $10.2$ (head $2$, layer $10$), $10.7$, and $11.3$, as well as the (negative) heads $9.6$ and $10.6$ play a significant role in the task completion.
翻訳日:2024-11-08 21:21:36 公開日:2024-10-16
# MERLIN:LLMを用いたテキスト・ビデオ検索・参照パイプラインの反復ナビゲーションによるマルチモーダル・エンベディング・リファインメント

MERLIN: Multimodal Embedding Refinement via LLM-based Iterative Navigation for Text-Video Retrieval-Rerank Pipeline ( http://arxiv.org/abs/2407.12508v2 )

ライセンス: Link先を確認
Donghoon Han, Eunhwan Park, Gisang Lee, Adam Lee, Nojun Kwak, (参考訳) マルチメディアコンテンツの急速な拡大は、大規模なコレクションから関連ビデオの正確な検索を困難にしている。 テキストビデオ検索の最近の進歩は、クロスモーダルなインタラクション、大規模な基礎モデルトレーニング、確率的モデリングに重点を置いているが、重要なユーザ視点を無視することが多いため、ユーザクエリと検索したコンテンツとの相違が生じている。 そこで本研究では,MERLIN (Multimodal Embedding Refinement via LLM-based Iterative Navigation)を導入した。 MERLINは、クエリの埋め込みをユーザの視点から洗練し、動的質問応答プロセスを通じて、クエリとビデオコンテンツのアライメントを強化する。 MSR-VTT、MSVD、ActivityNetなどのデータセットによる実験結果から、MERLINはRecall@1を大幅に改善し、既存のシステムより優れ、LLMをマルチモーダル検索システムに統合することで、より応答性が高く、コンテキスト対応のマルチメディア検索の利点を確認している。

The rapid expansion of multimedia content has made accurately retrieving relevant videos from large collections increasingly challenging. Recent advancements in text-video retrieval have focused on cross-modal interactions, large-scale foundation model training, and probabilistic modeling, yet often neglect the crucial user perspective, leading to discrepancies between user queries and the content retrieved. To address this, we introduce MERLIN (Multimodal Embedding Refinement via LLM-based Iterative Navigation), a novel, training-free pipeline that leverages Large Language Models (LLMs) for iterative feedback learning. MERLIN refines query embeddings from a user perspective, enhancing alignment between queries and video content through a dynamic question answering process. Experimental results on datasets like MSR-VTT, MSVD, and ActivityNet demonstrate that MERLIN substantially improves Recall@1, outperforming existing systems and confirming the benefits of integrating LLMs into multimodal retrieval systems for more responsive and context-aware multimedia retrieval.
翻訳日:2024-11-08 20:36:48 公開日:2024-10-16
# 保守的データフィルタリングを用いたロバストASR誤差補正

Robust ASR Error Correction with Conservative Data Filtering ( http://arxiv.org/abs/2407.13300v2 )

ライセンス: Link先を確認
Takuma Udagawa, Masayuki Suzuki, Masayasu Muraoka, Gakuto Kurata, (参考訳) 大規模言語モデルに基づく誤り訂正(EC)は,自動音声認識(ASR)システムの性能を向上させる新しい技術である。 一般的に、ECのトレーニングデータは、大量のASR仮説(ソースとして)とその金の参照(ターゲットとして)を自動的にペアリングすることによって収集される。 しかし、そのようなペアの品質は保証されておらず、我々は、ECモデルを不安定にすることができる様々な種類のノイズを観測した。 本研究は,ECトレーニングデータが満たすべき基本的基準として,(1)情報源に対する言語的受容性の向上,(2)利用可能な文脈(例えばソース音素)から推測可能なこと,の2つを提案する。 これらの基準により、我々は低品質のECペアを特定し、そのようなケースでは修正しないようにモデルを訓練する。 本実験では,EC 用日本語 LLM のベースラインとして強力な Conformer-CTC を用いた日本語 ASR に着目した。 提案手法は,21種類の内部ベンチマークを用いて,過補正を大幅に低減し,ASRの精度と品質を両立させることで,難易度の高いOOD設定が得られることを示した。

Error correction (EC) based on large language models is an emerging technology to enhance the performance of automatic speech recognition (ASR) systems. Generally, training data for EC are collected by automatically pairing a large set of ASR hypotheses (as sources) and their gold references (as targets). However, the quality of such pairs is not guaranteed, and we observed various types of noise which can make the EC models brittle, e.g. inducing overcorrection in out-of-domain (OOD) settings. In this work, we propose two fundamental criteria that EC training data should satisfy: namely, EC targets should (1) improve linguistic acceptability over sources and (2) be inferable from the available context (e.g. source phonemes). Through these criteria, we identify low-quality EC pairs and train the models not to make any correction in such cases, the process we refer to as conservative data filtering. In our experiments, we focus on Japanese ASR using a strong Conformer-CTC as the baseline and finetune Japanese LLMs for EC. Through our evaluation on a suite of 21 internal benchmarks, we demonstrate that our approach can significantly reduce overcorrection and improve both the accuracy and quality of ASR results in the challenging OOD settings.
翻訳日:2024-11-08 20:14:30 公開日:2024-10-16
# 自律的な表面ひび割れ修復のための視覚型適応ロボット

Vision-Based Adaptive Robotics for Autonomous Surface Crack Repair ( http://arxiv.org/abs/2407.16874v2 )

ライセンス: Link先を確認
Joshua Genova, Eric Cabrera, Vedhus Hoskere, (参考訳) インフラストラクチャの表面ひび割れは、効率的に修復しなければ、大幅な劣化とコストのかかるメンテナンスにつながる可能性がある。 手作業による修復法は、労働集約的で、時間がかかり、不正確であり、大規模に拡張することは困難である。 ロボットの認識と操作の進歩により、自律的なひび割れの修復が進んでいるが、既存の方法は、ロボットの座標フレーム内のひび割れの正確な位置決めという、3つの重要な課題に直面している。 二 ひび割れ深さ及び幅の変化への適応性及び 三 現実的な条件下での修理過程の検証 本稿では,ロボットによる表面き裂検出と修復のための適応型自律システムについて述べる。 このシステムは、亀裂検出にRGB-Dカメラ、精密測定にレーザースキャナー、押出機と物質沈着用ポンプを使用する。 重要な課題の1つに対処するため、レーザースキャナーは正確な位置決めのためのひび割れ座標を強化するために使用される。 さらに, 適応クラック充填法は固定速度法よりも効率的かつ効果的であることを示すとともに, 精度と整合性について実験的に検証した。 さらに,実世界の再現性を確保するために,実世界の条件を正確にシミュレートした3Dプリントき裂検体を用いた新しい検証手法を提案する。 この研究は、適応型ロボットシステムが手作業の必要性を減らし、安全を改善し、メンテナンス作業の効率化を図り、最終的にはより高度で統合された建設ロボティクスの道を開くことによって、建設における人間とロボットの相互作用の進化に寄与する。

Surface cracks in infrastructure can lead to significant deterioration and costly maintenance if not efficiently repaired. Manual repair methods are labor-intensive, time-consuming, and imprecise and thus difficult to scale to large areas. While advancements in robotic perception and manipulation have progressed autonomous crack repair, existing methods still face three key challenges: accurate localization of cracks within the robot's coordinate frame, (ii) adaptability to varying crack depths and widths, and (iii) validation of the repair process under realistic conditions. This paper presents an adaptive, autonomous system for surface crack detection and repair using robotics with advanced sensing technologies to enhance precision and safety for humans. The system uses an RGB-D camera for crack detection, a laser scanner for precise measurement, and an extruder and pump for material deposition. To address one of the key challenges, the laser scanner is used to enhance the crack coordinates for accurate localization. Furthermore, our approach demonstrates that an adaptive crack-filling method is more efficient and effective than a fixed-speed approach, with experimental results confirming both precision and consistency. In addition, to ensure real-world applicability and testing repeatability, we introduce a novel validation procedure using 3D-printed crack specimens that accurately simulate real-world conditions. This research contributes to the evolving field of human-robot interaction in construction by demonstrating how adaptive robotic systems can reduce the need for manual labor, improve safety, and enhance the efficiency of maintenance operations, ultimately paving the way for more sophisticated and integrated construction robotics.
翻訳日:2024-11-08 15:23:20 公開日:2024-10-16
# 企業サステナビリティ分析のための説明可能な自然言語処理

Explainable Natural Language Processing for Corporate Sustainability Analysis ( http://arxiv.org/abs/2407.17487v3 )

ライセンス: Link先を確認
Keane Ong, Rui Mao, Ranjan Satapathy, Ricardo Shirota Filho, Erik Cambria, Johan Sulaeman, Gianmarco Mengaldo, (参考訳) サステナビリティ(サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ)とは、環境、社会、経済に非破壊的(あるいはプラス的) 持続可能性が受け入れられ、合法的な行動のシノニムとなるにつれ、それはますます要求され、規制されている。 国連の持続可能な開発目標や最近導入された世界的な持続可能性報告フレームワークなど、企業の持続可能性への影響を測定するために、いくつかのフレームワークや標準が提案されている。 しかし、コーポレートサステナビリティの概念は、企業運営(地理的、規模、事業活動、他の利害関係者との相互関係など)の多様で複雑な性質のため複雑である。 その結果、企業サステナビリティ評価は、企業サステナビリティの取り組み(すなわち企業サステナビリティ開示)を反映したデータと、それらを評価するアナリストの両方において主観性に悩まされている。 この主観性は、不完全性、曖昧性、不確実性、データ次元の高度化、および限られた資源とアナリスト次元の潜在的なバイアスなど、異なる課題に蒸留することができる。 総じて、主観性は、サステナビリティの期待に従わない団体への効果的なコスト貢献を妨げ、サステナビリティの取り組みとその関連する規制を無駄にする可能性がある。 この目的のために、説明可能な自然言語処理(XNLP)は企業サステナビリティ分析を大幅に向上させることができると論じる。 具体的には、言語理解アルゴリズム(語彙、意味、構文)とXAI機能(解釈可能性、説明可能性、忠実性)を統合し、分析資源のギャップを埋め、データ内の主観性問題を緩和することができる。

Sustainability commonly refers to entities, such as individuals, companies, and institutions, having a non-detrimental (or even positive) impact on the environment, society, and the economy. With sustainability becoming a synonym of acceptable and legitimate behaviour, it is being increasingly demanded and regulated. Several frameworks and standards have been proposed to measure the sustainability impact of corporations, including United Nations' sustainable development goals and the recently introduced global sustainability reporting framework, amongst others. However, the concept of corporate sustainability is complex due to the diverse and intricate nature of firm operations (i.e. geography, size, business activities, interlinks with other stakeholders). As a result, corporate sustainability assessments are plagued by subjectivity both within data that reflect corporate sustainability efforts (i.e. corporate sustainability disclosures) and the analysts evaluating them. This subjectivity can be distilled into distinct challenges, such as incompleteness, ambiguity, unreliability and sophistication on the data dimension, as well as limited resources and potential bias on the analyst dimension. Put together, subjectivity hinders effective cost attribution to entities non-compliant with prevailing sustainability expectations, potentially rendering sustainability efforts and its associated regulations futile. To this end, we argue that Explainable Natural Language Processing (XNLP) can significantly enhance corporate sustainability analysis. Specifically, linguistic understanding algorithms (lexical, semantic, syntactic), integrated with XAI capabilities (interpretability, explainability, faithfulness), can bridge gaps in analyst resources and mitigate subjectivity problems within data.
翻訳日:2024-11-08 15:12:19 公開日:2024-10-16
# LitSearch:科学文献検索のための検索ベンチマーク

LitSearch: A Retrieval Benchmark for Scientific Literature Search ( http://arxiv.org/abs/2407.18940v2 )

ライセンス: Link先を確認
Anirudh Ajith, Mengzhou Xia, Alexis Chevalier, Tanya Goyal, Danqi Chen, Tianyu Gao, (参考訳) 現代の検索エンジンや検索システムにおいて,「生成した要約における一貫性の評価について,どのような研究があるのか?」といった文献検索の課題を提起する。 これらの質問は、研究概念の深い理解と、記事全体にわたって推論する能力を必要とすることが多い。 本稿では,最近のMLおよびNLP論文に関する597のリアルな文献検索クエリからなる検索ベンチマークLitSearchを紹介する。 LitSearchは,(1)研究論文からのインライン引用を含む段落に基づくGPT-4で作成された質問と,(2)著者が最近発表した論文について手書きした質問の組み合わせを用いて構築されている。 LitSearchのすべての質問は、高品質を保証するために専門家によって手作業で検査または編集された。 我々は、最先端の検索モデルを広範囲にベンチマークし、2つのLLMベースのリグレードパイプラインを評価する。 BM25と最先端の高密度リトリーバーの間には,24.8%の絶対差がみられた。 LLMベースのリグレード戦略により、最高の高密度レトリバーが4.4%向上した。 さらに、商用検索エンジンやGoogle Searchのようなリサーチツールは、LitSearchではパフォーマンスが悪く、リコールポイントを最大32ポイントも下回っている。 これらの結果は、LitSearchが現実世界のユースケースに対応しながら、検索システムのための情報的新しいテストベッドであることを示している。

Literature search questions, such as "Where can I find research on the evaluation of consistency in generated summaries?" pose significant challenges for modern search engines and retrieval systems. These questions often require a deep understanding of research concepts and the ability to reason across entire articles. In this work, we introduce LitSearch, a retrieval benchmark comprising 597 realistic literature search queries about recent ML and NLP papers. LitSearch is constructed using a combination of (1) questions generated by GPT-4 based on paragraphs containing inline citations from research papers and (2) questions manually written by authors about their recently published papers. All LitSearch questions were manually examined or edited by experts to ensure high quality. We extensively benchmark state-of-the-art retrieval models and also evaluate two LLM-based reranking pipelines. We find a significant performance gap between BM25 and state-of-the-art dense retrievers, with a 24.8% absolute difference in recall@5. The LLM-based reranking strategies further improve the best-performing dense retriever by 4.4%. Additionally, commercial search engines and research tools like Google Search perform poorly on LitSearch, lagging behind the best dense retriever by up to 32 recall points. Taken together, these results show that LitSearch is an informative new testbed for retrieval systems while catering to a real-world use case.
翻訳日:2024-11-08 14:50:05 公開日:2024-10-16
# 時空間リモートセンシングのための知識ガイド型マルチモーダルファンデーションモデルの実現に向けて

Towards a Knowledge guided Multimodal Foundation Model for Spatio-Temporal Remote Sensing Applications ( http://arxiv.org/abs/2407.19660v2 )

ライセンス: Link先を確認
Praveen Ravirathinam, Ankush Khandelwal, Rahul Ghosh, Vipin Kumar, (参考訳) 近年、地球観測衛星画像が大量にあるため、地球科学の基礎モデルへの関心が高まっている。 既存のリモートセンシング基礎モデルでは、様々なスペクトル画像源を用いて、マスクされた復元作業で事前訓練された大きなモデルを作成する。 本稿では,複数モーダル間の因果関係を事前に学習する基礎モデルフレームワークを提案する。 筆者らの枠組みは, スペクトル画像が物理的要因が環境システムに与える影響を捉え, それらの関係がシステムの特性によって支配されるという, 知識指導の原則を生かしている。 具体的には,MultiModal Variable Step Forecasting (MM-VSF) と呼ばれる本手法では,衛星画像の予測を事前訓練作業として使用し,スペクトル画像と気象の因果関係を捉えることができる。 本評価では,気象を用いた衛星画像の予測が基礎モデルの効果的な事前学習課題として利用できることを示す。 さらに,MM-VSFが生成する埋め込みが,従来の単一モダリティ入力マスク再構成を含む事前学習環境下で訓練されたモデルによって作成された埋め込みモデルと比較した場合,画素ワイズマッピングの下流タスクやスペクトル画像のイメージ予測に有効であることを示す。

In recent years, there has been an increased interest in foundation models for geoscience due to the vast amount of Earth observing satellite imagery. Existing remote sensing foundation models make use of the various sources of spectral imagery to create large models pretrained on the task of masked reconstruction. In this paper, we present a foundation model framework, where the pretraining task captures the causal relationship between multiple modalities. Our framework leverages the knowledge guided principles that the spectral imagery captures the impact of the physical drivers on the environmental system, and that the relationship between them is governed by the characteristics of the system. Specifically, our method, called MultiModal Variable Step Forecasting (MM-VSF), uses forecasting of satellite imagery as a pretraining task and is able to capture the causal relationship between spectral imagery and weather. In our evaluation we show that the forecasting of satellite imagery using weather can be used as an effective pretraining task for foundation models. We further show the effectiveness of the embeddings produced by MM-VSF on the downstream tasks of pixel wise crop mapping and missing image prediction of spectral imagery, when compared with embeddings created by models trained in alternative pretraining settings including the traditional single modality input masked reconstruction.
翻訳日:2024-11-08 14:27:29 公開日:2024-10-16
# Cahn-Hilliard流による材料の3次元微細構造進化のための物理誘起ニューラルネットワークの極時間外挿能力と熱力学的整合性

Extreme time extrapolation capabilities and thermodynamic consistency of physics-inspired Neural Networks for the 3D microstructure evolution of materials via Cahn-Hilliard flow ( http://arxiv.org/abs/2407.20126v2 )

ライセンス: Link先を確認
Daniele Lanzoni, Andrea Fantasia, Roberto Bergamaschini, Olivier Pierre-Louis, Francesco Montalenti, (参考訳) 畳み込みリカレントニューラルネットワーク(CRNN)は、コーン・ヒリアード方程式によって記述された3次元のスピノーダル分解過程の進化を再現するために訓練される。 特殊で物理に触発されたアーキテクチャは、予測された進化と従来の統合スキームを通して得られる基底真理とを密に一致させることが証明されている。 この方法は、計算コストのごく一部でトレーニングセットに表現されていない微細構造の進化を正確に再現することができる。 比較的短い進化の初期相のみを含むトレーニングセットにもかかわらず、層状で相分離された形態からなるシステムの理論的に期待される平衡状態に達するまで、極端に長期間の補間能力を達成することができる。 自由エネルギーの崩壊速度に応じた定量化も遅い粗大化段階まで実証され、このタイプの機械学習アプローチが、熱力学的整合性と高精度を維持しながら、長大かつ高スループットな材料シミュレーションのための新しい強力なツールとなることが証明された。

A Convolutional Recurrent Neural Network (CRNN) is trained to reproduce the evolution of the spinodal decomposition process in three dimensions as described by the Cahn-Hilliard equation. A specialized, physics-inspired architecture is proven to provide close accordance between the predicted evolutions and the ground truth ones obtained via conventional integration schemes. The method can accurately reproduce the evolution of microstructures not represented in the training set at a fraction of the computational costs. Extremely long-time extrapolation capabilities are achieved, up to reaching the theoretically expected equilibrium state of the system, consisting of a layered, phase-separated morphology, despite the training set containing only relatively-short, initial phases of the evolution. Quantitative accordance with the decay rate of the Free energy is also demonstrated up to the late coarsening stages, proving that this class of Machine Learning approaches can become a new and powerful tool for the long timescale and high throughput simulation of materials, while retaining thermodynamic consistency and high-accuracy.
翻訳日:2024-11-08 14:16:02 公開日:2024-10-16
# サイレントレターを超えて:声のニュアンスによる感情認識におけるLLMの増幅

Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances ( http://arxiv.org/abs/2407.21315v3 )

ライセンス: Link先を確認
Zehui Wu, Ziwei Gong, Lin Ai, Pengyuan Shi, Kaan Donbekci, Julia Hirschberg, (参考訳) 音声における感情認識は、言語内容と発声ニュアンスの両方を理解する必要がある、困難なマルチモーダルタスクである。 本稿では,Large Language Models (LLMs) を用いた感情検出手法を提案する。 音声入力処理におけるLLMの固有の制限を克服するため,LLMの音声特性を自然言語記述に変換する手法であるSpeechCueLLMを提案する。 我々の手法は最小限だが、構造的な修正を必要とするベースラインモデルよりも優れている。 我々は2つのデータセット(IEMOCAPとMELD)上でSpeechCueLLMを評価し、特に高品質な音声データに対して、感情認識精度を大幅に改善したことを示す。 また,異なるLLMに対する様々な特徴表現と微調整戦略の有効性についても検討する。 実験の結果,IEMOCAPの平均重み付きF1得点(70.111%から72.596%)は2%以上増加した。

Emotion recognition in speech is a challenging multimodal task that requires understanding both verbal content and vocal nuances. This paper introduces a novel approach to emotion detection using Large Language Models (LLMs), which have demonstrated exceptional capabilities in natural language understanding. To overcome the inherent limitation of LLMs in processing audio inputs, we propose SpeechCueLLM, a method that translates speech characteristics into natural language descriptions, allowing LLMs to perform multimodal emotion analysis via text prompts without any architectural changes. Our method is minimal yet impactful, outperforming baseline models that require structural modifications. We evaluate SpeechCueLLM on two datasets: IEMOCAP and MELD, showing significant improvements in emotion recognition accuracy, particularly for high-quality audio data. We also explore the effectiveness of various feature representations and fine-tuning strategies for different LLMs. Our experiments demonstrate that incorporating speech descriptions yields a more than 2% increase in the average weighted F1 score on IEMOCAP (from 70.111% to 72.596%).
翻訳日:2024-11-08 13:51:33 公開日:2024-10-16
# エンコーダに基づく事前学習型言語モデルの定義によるトークン埋め込みの劣化の再検討

Reconsidering Degeneration of Token Embeddings with Definitions for Encoder-based Pre-trained Language Models ( http://arxiv.org/abs/2408.01308v2 )

ライセンス: Link先を確認
Ying Zhang, Dongyuan Li, Manabu Okumura, (参考訳) トークン共起統計に基づく学習トークン埋め込みは、自然言語処理における事前学習と微調整の両方に有効であることが証明されている。 しかし、最近の研究では、学習された埋め込みの分布が異方性(例えば、非一様分布)に縮退し、事前訓練された言語モデル(PLM)でさえ低周波トークンの埋め込みにおいて意味論的関連情報が失われることが指摘されている。 本研究ではまず,エンコーダをベースとしたPLMの微調整力学を解析し,その変形に対する堅牢性を示す。 この分析に基づいて、定義を利用して等方的分散と意味論的関連トークンの埋め込みをエンコーダベースのPLMに再構築し、微調整中に元の堅牢性を維持できる手法であるDefindEMBを提案する。 本実験は,RoBERTa-base と BART-large の2つのエンコーダベース PLM に対して,Wiktionary の定義を利用して,そのような埋め込みを再構築する効果を示す。 さらに、低周波トークンに対する再構成された埋め込みにより、様々なGLUEと4つのテキスト要約データセットにわたるモデルの性能が向上する。

Learning token embeddings based on token co-occurrence statistics has proven effective for both pre-training and fine-tuning in natural language processing. However, recent studies have pointed out that the distribution of learned embeddings degenerates into anisotropy (i.e., non-uniform distribution), and even pre-trained language models (PLMs) suffer from a loss of semantics-related information in embeddings for low-frequency tokens. This study first analyzes the fine-tuning dynamics of encoder-based PLMs and demonstrates their robustness against degeneration. On the basis of this analysis, we propose DefinitionEMB, a method that utilizes definitions to re-construct isotropically distributed and semantics-related token embeddings for encoder-based PLMs while maintaining original robustness during fine-tuning. Our experiments demonstrate the effectiveness of leveraging definitions from Wiktionary to re-construct such embeddings for two encoder-based PLMs: RoBERTa-base and BART-large. Furthermore, the re-constructed embeddings for low-frequency tokens improve the performance of these models across various GLUE and four text summarization datasets.
翻訳日:2024-11-08 13:18:17 公開日:2024-10-16
# AssemAI:製造パイプラインの解釈可能な画像ベース異常検出

AssemAI: Interpretable Image-Based Anomaly Detection for Manufacturing Pipelines ( http://arxiv.org/abs/2408.02181v2 )

ライセンス: Link先を確認
Renjith Prasad, Chathurangi Shyalika, Ramtin Zand, Fadi El Kalach, Revathy Venkataramanan, Ramy Harik, Amit Sheth, (参考訳) 製造パイプラインにおける異常検出は、産業環境の複雑さと変動性によって強化され、依然として重要な課題である。 本稿では,スマート製造パイプラインに適した解釈可能な画像ベース異常検出システムAssemAIを紹介する。 産業向けロケット組立パイプラインからのキュレートされた画像データセットを利用することで、不均衡な画像データの課題に対処し、異常検出における画像ベース手法の重要性を実証する。 私たちの主な貢献は、画像データセットの導出、オブジェクト検出モデルYOLO-FFの微調整、アセンブリパイプライン用のカスタム異常検出モデルの実装などです。 提案手法は、データ準備、モデル開発、推論におけるドメイン知識を活用する。 得られた画像データセットには、畳み込みニューラルネットワーク、視覚変換器(ViT)、およびこれらのモデルの事前学習バージョンを含む、いくつかの異常検出モデルを実装している。 さらに、ユーザレベルでのオントロジーと、詳細な機能とモデル解析のためのSCORE-CAMを利用して、ユーザレベルとモデルレベルの両方に説明可能性手法を組み込んだ。 最後に、最適な異常検出モデルとYOLO-FFをリアルタイムに配置する。 本研究は,ベースラインのアブレーション研究と,提案システムに関する総合的な評価を含む。 この研究は、スマート製造プロセスの信頼性と効率を高めるために、高度な画像ベース異常検出の幅広い影響を強調している。 イメージデータセット、結果を再現するコード、追加の実験はhttps://github.com/renjithk4/AssemAI.comで公開されている。

Anomaly detection in manufacturing pipelines remains a critical challenge, intensified by the complexity and variability of industrial environments. This paper introduces AssemAI, an interpretable image-based anomaly detection system tailored for smart manufacturing pipelines. Utilizing a curated image dataset from an industry-focused rocket assembly pipeline, we address the challenge of imbalanced image data and demonstrate the importance of image-based methods in anomaly detection. Our primary contributions include deriving an image dataset, fine-tuning an object detection model YOLO-FF, and implementing a custom anomaly detection model for assembly pipelines. The proposed approach leverages domain knowledge in data preparation, model development and reasoning. We implement several anomaly detection models on the derived image dataset, including a Convolutional Neural Network, Vision Transformer (ViT), and pre-trained versions of these models. Additionally, we incorporate explainability techniques at both user and model levels, utilizing ontology for user-level explanations and SCORE-CAM for in-depth feature and model analysis. Finally, the best-performing anomaly detection model and YOLO-FF are deployed in a real-time setting. Our results include ablation studies on the baselines and a comprehensive evaluation of the proposed system. This work highlights the broader impact of advanced image-based anomaly detection in enhancing the reliability and efficiency of smart manufacturing processes. The image dataset, codes to reproduce the results and additional experiments are available at https://github.com/renjithk4/AssemAI.
翻訳日:2024-11-08 12:55:51 公開日:2024-10-16
# Hyper-YOLO:ハイパーグラフ計算で視覚オブジェクト検出を行う場合

Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation ( http://arxiv.org/abs/2408.04804v2 )

ライセンス: Link先を確認
Yifan Feng, Jiangang Huang, Shaoyi Du, Shihui Ying, Jun-Hai Yong, Yipeng Li, Guiguang Ding, Rongrong Ji, Yue Gao, (参考訳) 画像特徴量間の複雑な高次相関を捉えるためにハイパーグラフ計算を統合する新しいオブジェクト検出手法であるHyper-YOLOを導入する。 従来のYOLOモデルは強力ではあるが、クロスレベル機能の統合や高次機能相互関係の活用を制限したネックデザインに制限がある。 これらの課題に対処するため,HGC-SCS(Hypergraph Computation Empowered Semantic Collecting and Scattering)フレームワークを提案する。 これにより、モデルが意味情報と構造情報の両方を取得することができ、従来の特徴に焦点を絞った学習を超えて前進する。 Hyper-YOLOは、機能抽出を強化するためにMixed Aggregation Network (MANet) をバックボーンに組み込んでおり、ネックにHypergraph-based Cross-Level and Cross-Position Representation Network (HyperC2Net)を導入している。 HyperC2Netは5つのスケールで動作し、従来のグリッド構造から解放される。 このコンポーネントのシナジーは、COCOデータセットの優れたパフォーマンスによって証明されているように、Hyper-YOLOをさまざまなスケールモデルにおける最先端アーキテクチャとして位置づけている。 具体的には、Hyper-YOLO-Nは、高度なYOLOv8-NとYOLOv9-Tを 12\% $\text{AP}^{val}$と 9\% $\text{AP}^{val}$改善で大幅に上回っている。 ソースコードはttps://github.com/iMoonLab/Hyper-YOLOにある。

We introduce Hyper-YOLO, a new object detection method that integrates hypergraph computations to capture the complex high-order correlations among visual features. Traditional YOLO models, while powerful, have limitations in their neck designs that restrict the integration of cross-level features and the exploitation of high-order feature interrelationships. To address these challenges, we propose the Hypergraph Computation Empowered Semantic Collecting and Scattering (HGC-SCS) framework, which transposes visual feature maps into a semantic space and constructs a hypergraph for high-order message propagation. This enables the model to acquire both semantic and structural information, advancing beyond conventional feature-focused learning. Hyper-YOLO incorporates the proposed Mixed Aggregation Network (MANet) in its backbone for enhanced feature extraction and introduces the Hypergraph-Based Cross-Level and Cross-Position Representation Network (HyperC2Net) in its neck. HyperC2Net operates across five scales and breaks free from traditional grid structures, allowing for sophisticated high-order interactions across levels and positions. This synergy of components positions Hyper-YOLO as a state-of-the-art architecture in various scale models, as evidenced by its superior performance on the COCO dataset. Specifically, Hyper-YOLO-N significantly outperforms the advanced YOLOv8-N and YOLOv9-T with 12\% $\text{AP}^{val}$ and 9\% $\text{AP}^{val}$ improvements. The source codes are at ttps://github.com/iMoonLab/Hyper-YOLO.
翻訳日:2024-11-08 12:11:36 公開日:2024-10-16
# 可変オートエンコーダを用いた空力的シュロゲートモデリングに向けて

Towards aerodynamic surrogate modeling based on $β$-variational autoencoders ( http://arxiv.org/abs/2408.04969v2 )

ライセンス: Link先を確認
Víctor Francés-Belda, Alberto Solera-Rico, Javier Nieto-Centenero, Esther Andrés, Carlos Sanmiguel Vila, Rodrigo Castellanos, (参考訳) 次元還元法と回帰法を組み合わせたサーロゲートモデルは,高忠実度計算流体力学データの必要性を低減するために不可欠である。 $\beta$-Variational Autoencoder(\beta$-VAE)アーキテクチャを用いた新しいアプローチは、高次元フローデータの高品質な低次元表現を得るとともに、その潜在空間の物理的解釈を可能にすることを約束している。 飛行条件を考慮に入れた超音速翼の圧力分布(マッハ数と攻撃角)を予測するために,潜時空間回帰に基づく代理モデルを提案する。 主成分分析(PCA)により強化された$\beta$-VAEモデルは、高次元データを低次元潜在空間にマッピングし、飛行条件と直接相関を示す。 通常の$\beta$は、全体的なパフォーマンスを改善するために注意深いチューニングを必要とするが、PCA前処理は効果的な潜伏空間の構築を支援し、オートエンコーダのトレーニングとパフォーマンスを改善する。 ガウス過程回帰は、飛行条件から潜時空間変数を予測するために使用され、$\beta$とは独立に頑健な振る舞いを示し、デコーダは高次元の圧力場データを再構成する。 このパイプラインは、未調査の飛行条件に関する洞察を提供する。 さらに、デコーダの微調整処理によりモデルはさらに洗練され、$\beta$への依存が軽減され、精度が向上する。 構造化潜在空間、頑健な回帰性能、微調整の大幅な改善により、高度に正確かつ効率的な代理モデルが作成される。 提案手法は,空力サロゲートモデリングにおける$\beta$-VAEsの有効性を実証し,空力データ予測のための高速で費用対効果があり信頼性の高い代替手段を提供する。

Surrogate models that combine dimensionality reduction and regression techniques are essential to reduce the need for costly high-fidelity computational fluid dynamics data. New approaches using $\beta$-Variational Autoencoder ($\beta$-VAE) architectures have shown promise in obtaining high-quality low-dimensional representations of high-dimensional flow data while enabling physical interpretation of their latent spaces. We propose a surrogate model based on latent space regression to predict pressure distributions on a transonic wing given the flight conditions: Mach number and angle of attack. The $\beta$-VAE model, enhanced with Principal Component Analysis (PCA), maps high-dimensional data to a low-dimensional latent space, showing a direct correlation with flight conditions. Regularization through $\beta$ requires careful tuning to improve overall performance, while PCA preprocessing helps to construct an effective latent space, improving autoencoder training and performance. Gaussian Process Regression is used to predict latent space variables from flight conditions, showing robust behavior independent of $\beta$, and the decoder reconstructs the high-dimensional pressure field data. This pipeline provides insight into unexplored flight conditions. Furthermore, a fine-tuning process of the decoder further refines the model, reducing the dependence on $\beta$ and enhancing accuracy. Structured latent space, robust regression performance, and significant improvements in fine-tuning collectively create a highly accurate and efficient surrogate model. Our methodology demonstrates the effectiveness of $\beta$-VAEs for aerodynamic surrogate modeling, offering a rapid, cost-effective, and reliable alternative for aerodynamic data prediction.
翻訳日:2024-11-08 12:00:36 公開日:2024-10-16
# LLMのフェローシップ:合成選好最適化データセット生成のためのマルチエージェントワークフロー

The Fellowship of the LLMs: Multi-Agent Workflows for Synthetic Preference Optimization Dataset Generation ( http://arxiv.org/abs/2408.08688v4 )

ライセンス: Link先を確認
Samee Arif, Sualeha Farid, Abdul Hameed Azeemi, Awais Athar, Agha Ali Raza, (参考訳) 本稿では,マルチエージェントワークフローを用いて,合成優先度最適化(PO)データセットを生成する新しい手法を提案する。 データセット生成プロセスの自動化と向上におけるこれらのワークフローの有効性と可能性を評価する。 POデータセット生成には,(1)応答評価,(2)応答生成という2つのモジュールが必要である。 応答評価モジュールでは,Lumge Language Models (LLMs) からの応答を評価し,評価する。 反応評価モジュールを2段階のプロセスで評価する。 ステップ1では,LLMを3つの異なるプロンプト戦略を用いて評価する。 ステップ2では, LLM-as-a-Judge, LLMs-as-a-Jury, LLM Debateの性能の比較を行う。 評価の結果,GPT-4o-as-a-Judgeは全データセットでより一貫性があることがわかった。 応答生成モジュールでは、識別されたLLM評価器の構成を使用し、LLMフィードバックループの異なる構成を比較する。 勝利率を用いて、生成に最適なマルチエージェント構成を決定する。 Llama をジェネレータとし,Gemma をレビュアーとする LLM Feedback Loop は,Llama と Gemma をそれぞれ71.8%, 73.8% の勝利率を達成した。 両方のモジュールの最適な設定を特定した後、上記のパイプラインを使用してPOデータセットを生成します。

This paper presents a novel methodology for generating synthetic Preference Optimization (PO) datasets using multi-agent workflows. We evaluate the effectiveness and potential of these workflows in automating and enhancing the dataset generation process. PO dataset generation requires two modules: (1) response evaluation, and (2) response generation. In the response evaluation module, the responses from Large Language Models (LLMs) are evaluated and ranked - a task typically carried out by human annotators that we automate using LLMs. We assess the response evaluation module in a 2 step process. In step 1, we assess LLMs as evaluators using three distinct prompting strategies. In step 2, we apply the winning prompting strategy to compare the performance of LLM-as-a-Judge, LLMs-as-a-Jury, and LLM Debate. Our evaluation shows that GPT-4o-as-a-Judge is more consistent across all datasets. For the response generation module, we use the identified LLM evaluator configuration and compare different configurations of the LLM Feedback Loop. We use the win rate to determine the best multi-agent configuration for generation. Experimenting with various configurations, we find that the LLM Feedback Loop, with Llama as the generator and Gemma as the reviewer, achieves a notable 71.8% and 73.8% win rate over single-agent Llama and Gemma, respectively. After identifying the best configurations for both modules, we generate our PO datasets using the above pipeline.
翻訳日:2024-11-08 07:18:07 公開日:2024-10-16
# VrdONE: ワンステージ映像関係検出

VrdONE: One-stage Video Visual Relation Detection ( http://arxiv.org/abs/2408.09408v2 )

ライセンス: Link先を確認
Xinjie Jiang, Chenxi Zheng, Xuemiao Xu, Bangzhen Liu, Weiying Zheng, Huaidong Zhang, Shengfeng He, (参考訳) Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間を通じて、エンティティがどのように相互作用するかを理解することに焦点を当てている。 VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。 この分割は、これらの要素間の固有の関係を見落としている。 実体対の時空間的相互作用を一定期間にわたって認識する必要性に対処するため,一段階モデルであるVrdONEを提案する。 VrdONEは被写体とオブジェクトの特徴を組み合わせて、述語検出をそれらの複合表現上の1Dインスタンスセグメンテーションに変換する。 このセットアップにより、関係カテゴリの識別とバイナリマスクの生成を1回で行うことができ、提案生成や後処理といった余分なステップが不要になる。 VrdONEは様々なフレーム間の機能の相互作用を促進する。 さらに,SOSモジュールを導入し,対象と対象が相互に知覚し合うようにした。 VrdONEはVidORベンチマークとImageNet-VidVRDで最先端のパフォーマンスを実現し、異なる時間スケールで関係を識別する優れた能力を示している。 コードはhttps://github.com/lucaspk512/vrdone.comで公開されている。

Video Visual Relation Detection (VidVRD) focuses on understanding how entities interact over time and space in videos, a key step for gaining deeper insights into video scenes beyond basic visual tasks. Traditional methods for VidVRD, challenged by its complexity, typically split the task into two parts: one for identifying what relation categories are present and another for determining their temporal boundaries. This split overlooks the inherent connection between these elements. Addressing the need to recognize entity pairs' spatiotemporal interactions across a range of durations, we propose VrdONE, a streamlined yet efficacious one-stage model. VrdONE combines the features of subjects and objects, turning predicate detection into 1D instance segmentation on their combined representations. This setup allows for both relation category identification and binary mask generation in one go, eliminating the need for extra steps like proposal generation or post-processing. VrdONE facilitates the interaction of features across various frames, adeptly capturing both short-lived and enduring relations. Additionally, we introduce the Subject-Object Synergy (SOS) module, enhancing how subjects and objects perceive each other before combining. VrdONE achieves state-of-the-art performances on the VidOR benchmark and ImageNet-VidVRD, showcasing its superior capability in discerning relations across different temporal scales. The code is available at https://github.com/lucaspk512/vrdone.
翻訳日:2024-11-08 06:55:48 公開日:2024-10-16
# Reason-of-Select蒸留による対話状態の連続追跡

Continual Dialogue State Tracking via Reason-of-Select Distillation ( http://arxiv.org/abs/2408.09846v2 )

ライセンス: Link先を確認
Yujie Feng, Bo Liu, Xiaoyu Dong, Zexin Lu, Li-Ming Zhan, Albert Y. S. Lam, Xiao-Ming Wu, (参考訳) 理想的な対話システムは、事前知識を維持しながら、継続的なスキル獲得と新しいタスクへの適応を必要とする。 これらのシステムにおいて不可欠な対話状態追跡(DST)は、しばしば「価値選択基準」(Value Selection Quandary)と呼ばれる重要な能力損失とともに、新しいサービスを学び、破滅的な忘れに直面する。 これらの課題に対処するために,我々は,新しい「メタ・レゾニング」機能を持つ小型モデルの強化により,Riason-of-Select(RoS)蒸留法を導入する。 メタ推論は、継続学習中のドメイン固有の対話からメタ知識の断片を組み合わせることで、拡張されたマルチドメインの視点を採用する。 これは伝統的な単一観念的推論を超越する。 ドメインブートストラッププロセスは、複数の可能な値から複雑な対話を識別するモデルの能力を高める。 そのドメインに依存しない性質は、異なるドメインにまたがるデータの分散を調整し、事実上忘れを軽減します。 さらに、DST固有の選択連鎖を生成し、教師の推論における幻覚を緩和し、効果的で信頼性の高い知識伝達を確実にすることで、RoSを著しく向上させる「マルチバリュー解決」戦略とセマンティックコントラスト推論選択法(Semantic Contrastive Reasoning Selection method)が導入された。 大規模な実験により,本手法の優れた性能と堅牢な一般化能力が検証された。 ソースコードは再現性のために提供される。

An ideal dialogue system requires continuous skill acquisition and adaptation to new tasks while retaining prior knowledge. Dialogue State Tracking (DST), vital in these systems, often involves learning new services and confronting catastrophic forgetting, along with a critical capability loss termed the "Value Selection Quandary." To address these challenges, we introduce the Reason-of-Select (RoS) distillation method by enhancing smaller models with a novel 'meta-reasoning' capability. Meta-reasoning employs an enhanced multi-domain perspective, combining fragments of meta-knowledge from domain-specific dialogues during continual learning. This transcends traditional single-perspective reasoning. The domain bootstrapping process enhances the model's ability to dissect intricate dialogues from multiple possible values. Its domain-agnostic property aligns data distribution across different domains, effectively mitigating forgetting. Additionally, two novel improvements, "multi-value resolution" strategy and Semantic Contrastive Reasoning Selection method, significantly enhance RoS by generating DST-specific selection chains and mitigating hallucinations in teachers' reasoning, ensuring effective and reliable knowledge transfer. Extensive experiments validate the exceptional performance and robust generalization capabilities of our method. The source code is provided for reproducibility.
翻訳日:2024-11-08 06:55:48 公開日:2024-10-16
# ViLReF:中国のビジョンランゲージ網膜ファンデーションモデル

ViLReF: A Chinese Vision-Language Retinal Foundation Model ( http://arxiv.org/abs/2408.10894v2 )

ライセンス: Link先を確認
Shengzhu Yang, Jiawei Du, Jia Guo, Weihang Zhang, Hanruo Liu, Huiqi Li, Ningli Wang, (参考訳) 網膜画像とテキストデータのサブトル意味的差異は、事前学習された視覚言語モデルにとって大きな課題となる。 さらに、偽陰性サンプル、すなわち、画像とテキストのペアは、同じ意味を持つが、誤って負と見なされ、視覚言語による事前学習プロセスを妨害し、モデルの学習能力に影響を与える。 この研究は、451,956枚の網膜画像とそれに対応する診断用テキストレポートからなるペアデータセットを事前トレーニングすることで、ViLReFと呼ばれる網膜基盤モデルを開発することを目的としている。 視覚言語による事前学習戦略では、専門家の知識を活用してラベルの抽出を容易にし、新しい制約である重み付き類似性結合損失(Weighted similarity Coupling Loss)を提案し、特徴空間内でサンプルペアを動的に分割する速度を調整する。 さらに,モーメントエンコーダが保持する動的メモリキューを備えたバッチ拡張モジュールを用いて,偽陰性の除去による空洞の補充と余分なサンプルの供給を行う。 下流分類とセグメンテーションタスクのための複数のデータセットに対して大規模な実験を行う。 実験の結果,ViLReFの強力なゼロショット・トランスファー学習能力を示し,事前学習戦略の有効性を検証した。 私たちのViLReFモデルは、https://github.com/T6Yang/ViLReFで利用可能です。

Subtle semantic differences in retinal image and text data present great challenges for pre-training visual-language models. Moreover, false negative samples, i.e., image-text pairs having the same semantics but incorrectly regarded as negatives, disrupt the visual-language pre-training process and affect the model's learning ability. This work aims to develop a retinal foundation model, called ViLReF, by pre-training on a paired dataset comprising 451,956 retinal images and corresponding diagnostic text reports. In our vision-language pre-training strategy, we leverage expert knowledge to facilitate the extraction of labels and propose a novel constraint, the Weighted Similarity Coupling Loss, to adjust the speed of pushing sample pairs further apart dynamically within the feature space. Furthermore, we employ a batch expansion module with dynamic memory queues, maintained by momentum encoders, to supply extra samples and compensate for the vacancies caused by eliminating false negatives. Extensive experiments are conducted on multiple datasets for downstream classification and segmentation tasks. The experimental results demonstrate the powerful zero-shot and transfer learning capabilities of ViLReF, verifying the effectiveness of our pre-training strategy. Our ViLReF model is available at: https://github.com/T6Yang/ViLReF.
翻訳日:2024-11-08 06:22:37 公開日:2024-10-16
# ViLReF:ビジョンランゲージ網膜ファンデーションモデルを実現するエキスパート知識

ViLReF: An Expert Knowledge Enabled Vision-Language Retinal Foundation Model ( http://arxiv.org/abs/2408.10894v3 )

ライセンス: Link先を確認
Shengzhu Yang, Jiawei Du, Jia Guo, Weihang Zhang, Hanruo Liu, Huiqi Li, Ningli Wang, (参考訳) 網膜画像とテキストデータのサブトル意味的差異は、事前学習された視覚言語モデルにとって大きな課題となる。 さらに、偽陰性サンプル、すなわち、画像とテキストのペアは、同じ意味を持つが、誤って負と見なされ、視覚言語による事前学習プロセスを妨害し、モデルの学習能力に影響を与える。 この研究は、451,956枚の網膜画像とそれに対応する診断用テキストレポートからなるペアデータセットを事前トレーニングすることで、ViLReFと呼ばれる網膜基盤モデルを開発することを目的としている。 視覚言語による事前学習戦略では、専門家の知識を活用してラベルの抽出を容易にし、新しい制約である重み付き類似性結合損失(Weighted similarity Coupling Loss)を提案し、特徴空間内でサンプルペアを動的に分割する速度を調整する。 さらに,モーメントエンコーダが保持する動的メモリキューを備えたバッチ拡張モジュールを用いて,偽陰性の除去による空洞の補充と余分なサンプルの供給を行う。 下流分類とセグメンテーションタスクのための複数のデータセットに対して大規模な実験を行う。 実験の結果,ViLReFの強力なゼロショット・トランスファー学習能力を示し,事前学習戦略の有効性を検証した。 私たちのViLReFモデルは、https://github.com/T6Yang/ViLReFで利用可能です。

Subtle semantic differences in retinal image and text data present great challenges for pre-training visual-language models. Moreover, false negative samples, i.e., image-text pairs having the same semantics but incorrectly regarded as negatives, disrupt the visual-language pre-training process and affect the model's learning ability. This work aims to develop a retinal foundation model, called ViLReF, by pre-training on a paired dataset comprising 451,956 retinal images and corresponding diagnostic text reports. In our vision-language pre-training strategy, we leverage expert knowledge to facilitate the extraction of labels and propose a novel constraint, the Weighted Similarity Coupling Loss, to adjust the speed of pushing sample pairs further apart dynamically within the feature space. Furthermore, we employ a batch expansion module with dynamic memory queues, maintained by momentum encoders, to supply extra samples and compensate for the vacancies caused by eliminating false negatives. Extensive experiments are conducted on multiple datasets for downstream classification and segmentation tasks. The experimental results demonstrate the powerful zero-shot and transfer learning capabilities of ViLReF, verifying the effectiveness of our pre-training strategy. Our ViLReF model is available at: https://github.com/T6Yang/ViLReF.
翻訳日:2024-11-08 06:22:37 公開日:2024-10-16
# 逆勾配エピソードメモリによる連続RLデータの増大

Data Augmentation for Continual RL via Adversarial Gradient Episodic Memory ( http://arxiv.org/abs/2408.13452v3 )

ライセンス: Link先を確認
Sihao Wu, Xingyu Zhao, Xiaowei Huang, (参考訳) Reinforcement Learning(RL)トレーニングプロセスにおいて重要な役割を果たす学習のデータ効率は、連続環境を持つ連続RLにおいてさらに重要になる。 連続RLでは、学習者は定常的でないシーケンシャルなタスクと対話し、以前の知識を忘れずに新しいタスクを学習する必要がある。 しかし、連続RLのためのデータ拡張の実装についてはほとんど研究されていない。 本稿では,連続RLにおけるデータ拡張の有効性について検討する。 具体的には,(1)既存のデータ拡張手法を要約し,(2)連続RLの新たな拡張方法を含む連続RLのためのベンチマークデータ拡張(Adv-GEM)を提案する。 大規模な実験により、ロボット制御タスクにおいて、ランダム振幅スケーリング、ステートスウィッチ、ミックスアップ、逆方向拡張、Adv-GEMなどのデータ拡張が、その平均性能、破滅的な忘れ、前方移動といった面で、既存の連続RLアルゴリズムを改善できることが示されている。 すべてのデータ拡張メソッドはプラグインモジュールとして実装され、連続RLメソッドに簡単に統合できる。

Data efficiency of learning, which plays a key role in the Reinforcement Learning (RL) training process, becomes even more important in continual RL with sequential environments. In continual RL, the learner interacts with non-stationary, sequential tasks and is required to learn new tasks without forgetting previous knowledge. However, there is little work on implementing data augmentation for continual RL. In this paper, we investigate the efficacy of data augmentation for continual RL. Specifically, we provide benchmarking data augmentations for continual RL, by (1) summarising existing data augmentation methods and (2) including a new augmentation method for continual RL: Adversarial Augmentation with Gradient Episodic Memory (Adv-GEM). Extensive experiments show that data augmentations, such as random amplitude scaling, state-switch, mixup, adversarial augmentation, and Adv-GEM, can improve existing continual RL algorithms in terms of their average performance, catastrophic forgetting, and forward transfer, on robot control tasks. All data augmentation methods are implemented as plug-in modules for trivial integration into continual RL methods.
翻訳日:2024-11-08 05:26:28 公開日:2024-10-16
# DOCE:実行ベースのコード生成のためのスイートスポットを見つける

DOCE: Finding the Sweet Spot for Execution-Based Code Generation ( http://arxiv.org/abs/2408.13745v4 )

ライセンス: Link先を確認
Haau-Sing Li, Patrick Fernandes, Iryna Gurevych, André F. T. Martins, (参考訳) 近年,LLMベースのコード生成において,多種多様な復号化処理と復号化処理が有効であることが示されている。 しかし、これらの手法をリンクし、実験的に比較する包括的なフレームワークは欠落している。 私たちは、Decoding Objectives for Code Executionを提案しています。これは、候補生成、$n$-bestリグレード、最小ベイズリスク(MBR)デコーディング、コアコンポーネントとしての自己デバッグを含む包括的なフレームワークです。 次に、これらのコンポーネントのコントリビューションを、実行ベースの評価指標を通して調査する。 本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。 さらに,従来の研究では見過ごされがちな,シンプルかつ効果的な手法である試行単体テストに基づくフィルタリングの効果を評価する。 また,複数候補に対する自己デバッグを提案する。 私たちのフレームワークは、コード生成に関する将来の研究のための確かなガイドラインを提供することを期待しています。

Recently, a diverse set of decoding and reranking procedures have been shown effective for LLM-based code generation. However, a comprehensive framework that links and experimentally compares these methods is missing. We address this by proposing Decoding Objectives for Code Execution, a comprehensive framework that includes candidate generation, $n$-best reranking, minimum Bayes risk (MBR) decoding, and self-debugging as the core components. We then study the contributions of these components through execution-based evaluation metrics. Our findings highlight the importance of execution-based methods and the difference gap between execution-based and execution-free methods. Furthermore, we assess the impact of filtering based on trial unit tests, a simple and effective strategy that has been often overlooked in prior works. We also propose self-debugging on multiple candidates, obtaining state-of-the-art performance on reranking for code generation. We expect our framework to provide a solid guideline for future research on code generation.
翻訳日:2024-11-08 05:15:13 公開日:2024-10-16
# LoraMap: LoRAコネクションのパワーを損なう

LoraMap: Harnessing the Power of LoRA Connections ( http://arxiv.org/abs/2408.16264v2 )

ライセンス: Link先を確認
Hyeryun Park, Jeongwon Kwak, Dongsuk Jang, Sumin Park, Jinwook Choi, (参考訳) ファクトチェック技術は、特殊ドメインにおける顕著な問題であるLarge Language Models (LLMs)における幻覚を緩和することができる。 Low-Rank Adaptation (LoRA) のようなパラメータ効率のよい手法は計算オーバーヘッドを大幅に克服できるため、複数のLoRAの統合について検討している。 本稿では,複数のLoRA間の接続を確立する手法について検討する。 ファクトチェックと微調整の個々のLoRAに適した3つの推論データセットを作成します。 次に、これらのロラを割り当てる戦略を検討し、それらの間の接続をマップするアプローチであるロラマップを導入する。 ファクトチェックタスクの結果は、LoraMapのパフォーマンスが、既存のLoRAを統合する方法であるLoraHubよりも優れていることを示している。 LoraMapは、LoRAとそれらをさらに微調整するLoraConcatよりも、トレーニング可能なパラメータが大幅に少ないことで、パフォーマンスも向上している。

Fact-checking techniques can mitigate hallucinations in Large Language Models (LLMs), a prominent issue in specialized domains. As parameter-efficient techniques such as Low-Rank Adaptation (LoRA) can overcome substantial computational overhead, some studies have explored the integration of multiple LoRAs. While previous studies focus on parallel integration, this paper investigates methods to establish connections among multiple LoRAs. We create three reasoning datasets tailored to fact-checking and fine-tune individual LoRAs, allowing them to view and reason from diverse perspectives. Then, we explore strategies for allocating these reasoning LoRAs and introduce LoraMap, an approach to map connections between them. The results of the fact-checking task demonstrate that the performance of LoraMap is superior to LoraHub, an existing method for integrating LoRAs. LoraMap also outperforms with significantly fewer trainable parameters than LoraConcat, which concatenates LoRAs and further fine-tunes them.
翻訳日:2024-11-08 04:19:50 公開日:2024-10-16
# サブ指数入力に対するα$の学習率条件下での便益オーバーフィッティング

Benign Overfitting under Learning Rate Conditions for $α$ Sub-exponential Input ( http://arxiv.org/abs/2409.00733v2 )

ライセンス: Link先を確認
Kota Okudo, Kei Kobayashi, (参考訳) 本稿では、重み付き入力分布を持つ二項分類問題における良性過剰適合現象を考察し、最大利得分類器の分析を$\alpha$サブ指数分布(0, 2]$)に拡張する。 これはガウス以下の入力に焦点をあてた以前の研究を一般化する。 この重み付き設定における非正規化ロジスティック損失に対する勾配勾配を用いた線形分類器の一般化誤差境界を提供する。 その結果,次元$p$と分布の中心間の距離が一定条件下では,最大利得分類器の誤分類誤差が漸近的に雑音レベルに近づき,理論的最適値となることがわかった。 さらに,入力分布のテールヘビーネスが増加するにつれて,学習速度の上限が減少することを示す。 これらの結果から, 前回研究したよりも重み付け入力の設定においても, 良性過剰適合が持続し, より現実的なデータ環境における現象のより深い理解に寄与することが示唆された。

This paper investigates the phenomenon of benign overfitting in binary classification problems with heavy-tailed input distributions, extending the analysis of maximum margin classifiers to $\alpha$ sub-exponential distributions ($\alpha \in (0, 2]$). This generalizes previous work focused on sub-gaussian inputs. We provide generalization error bounds for linear classifiers trained using gradient descent on unregularized logistic loss in this heavy-tailed setting. Our results show that, under certain conditions on the dimensionality $p$ and the distance between the centers of the distributions, the misclassification error of the maximum margin classifier asymptotically approaches the noise level, the theoretical optimal value. Moreover, we derive an upper bound on the learning rate $\beta$ for benign overfitting to occur and show that as the tail heaviness of the input distribution $\alpha$ increases, the upper bound on the learning rate decreases. These results demonstrate that benign overfitting persists even in settings with heavier-tailed inputs than previously studied, contributing to a deeper understanding of the phenomenon in more realistic data environments.
翻訳日:2024-11-08 03:46:24 公開日:2024-10-16
# グローバル・ローカル・デフォルマブル・トランスフォーメーションによるプログレッシブ網膜画像登録

Progressive Retinal Image Registration via Global and Local Deformable Transformations ( http://arxiv.org/abs/2409.01068v2 )

ライセンス: Link先を確認
Yepeng Liu, Baosheng Yu, Tian Chen, Yuliang Gu, Bo Du, Yongchao Xu, Jun Cheng, (参考訳) 網膜画像登録は眼科診断過程において重要な役割を担っている。 異なる網膜画像間の視角や解剖学的構造にばらつきがあるため、キーポイントベースのアプローチは、その堅牢性と低レイテンシにより、網膜画像登録の主流となる。 これらの手法は通常、網膜表面が平面であると仮定し、画像間の大域的な変換を表すホモグラフィ行列を得るために特徴マッチングを採用する。 しかし、このような平面仮説は、網膜表面がほぼ湾曲しているため、必然的に登録誤差を生じさせる。 この制限は、視角に有意な差がある画像対を登録する場合に顕著である。 この問題に対処するため,HybridRetinaと呼ばれるハイブリッドレジストレーションフレームワークを提案する。 そこで我々は,GAMorphと呼ばれるキーポイント検出器と変形ネットワークを用いて,大域的な変換と局所的な変形可能な変換を推定する。 具体的には,GAMorphのトレーニングを指導するために,多段階の画素関係知識を統合する。 さらに,画像の幾何学的先行を含むエッジアテンションモジュールを利用することで,画像の変形領域が臨床的興味のある血管領域により集中することを保証する。 FIREとFLoRI21という2つの広く使われているデータセットの実験により、提案したHybridRetinaは最先端の手法よりも大幅に優れていることが示された。 コードはhttps://github.com/lyp-deeplearning/awesome-retinal-registrationで公開されている。

Retinal image registration plays an important role in the ophthalmological diagnosis process. Since there exist variances in viewing angles and anatomical structures across different retinal images, keypoint-based approaches become the mainstream methods for retinal image registration thanks to their robustness and low latency. These methods typically assume the retinal surfaces are planar, and adopt feature matching to obtain the homography matrix that represents the global transformation between images. Yet, such a planar hypothesis inevitably introduces registration errors since retinal surface is approximately curved. This limitation is more prominent when registering image pairs with significant differences in viewing angles. To address this problem, we propose a hybrid registration framework called HybridRetina, which progressively registers retinal images with global and local deformable transformations. For that, we use a keypoint detector and a deformation network called GAMorph to estimate the global transformation and local deformable transformation, respectively. Specifically, we integrate multi-level pixel relation knowledge to guide the training of GAMorph. Additionally, we utilize an edge attention module that includes the geometric priors of the images, ensuring the deformation field focuses more on the vascular regions of clinical interest. Experiments on two widely-used datasets, FIRE and FLoRI21, show that our proposed HybridRetina significantly outperforms some state-of-the-art methods. The code is available at https://github.com/lyp-deeplearning/awesome-retinal-registration.
翻訳日:2024-11-08 03:35:26 公開日:2024-10-16
# 圧縮できないものをサンプルする

Sample what you cant compress ( http://arxiv.org/abs/2409.02529v2 )

ライセンス: Link先を確認
Vighnesh Birodkar, Gabriel Barcik, James Lyon, Sergey Ioffe, David Minnen, Joshua V. Dillon, (参考訳) 学習画像表現では、基本オートエンコーダはしばしばぼやけた結果を生成する。 逆境(GAN)や知覚的損失などの追加の罰則を取り入れることで、再建の質を向上させることができる。 これらのアプローチには原則的な解釈が欠如している。 同時に、生成的セッティングの拡散は、鮮明で高品質な結果を生み出す顕著な能力を示し、(変分推論からフィッシャーダイバージェンスとして直接研究まで)しっかりとした理論的基盤を持っている。 我々の研究は、自己エンコーダ表現学習と拡散を組み合わせ、拡散に基づく損失の下で連続エンコーダとデコーダを共同で学習する効果を初めて示すものである。 提案手法は,GANベースのオートエンコーダに比べてチューニングが容易でありながら,再構築品質が向上することを示す。 また, 得られた表現は, 最先端のGANに基づく損失から得られた表現と比較して, 潜時拡散モデルによりモデル化し易いことを示す。 我々のデコーダは確率的であるため、そうでない決定論的潜在表現にエンコードされていない詳細を生成することができる。

For learned image representations, basic autoencoders often produce blurry results. Reconstruction quality can be improved by incorporating additional penalties such as adversarial (GAN) and perceptual losses. Arguably, these approaches lack a principled interpretation. Concurrently, in generative settings diffusion has demonstrated a remarkable ability to create crisp, high quality results and has solid theoretical underpinnings (from variational inference to direct study as the Fisher Divergence). Our work combines autoencoder representation learning with diffusion and is, to our knowledge, the first to demonstrate the efficacy of jointly learning a continuous encoder and decoder under a diffusion-based loss. We demonstrate that this approach yields better reconstruction quality as compared to GAN-based autoencoders while being easier to tune. We also show that the resulting representation is easier to model with a latent diffusion model as compared to the representation obtained from a state-of-the-art GAN-based loss. Since our decoder is stochastic, it can generate details not encoded in the otherwise deterministic latent representation; we therefore name our approach "Sample what you can't compress", or SWYCC for short.
翻訳日:2024-11-07 23:45:04 公開日:2024-10-16
# 圧縮できないものをサンプルする

Sample what you cant compress ( http://arxiv.org/abs/2409.02529v3 )

ライセンス: Link先を確認
Vighnesh Birodkar, Gabriel Barcik, James Lyon, Sergey Ioffe, David Minnen, Joshua V. Dillon, (参考訳) 学習画像表現では、基本オートエンコーダはしばしばぼやけた結果を生成する。 逆境(GAN)や知覚的損失などの追加の罰則を取り入れることで、再建の質を向上させることができる。 これらのアプローチには原則的な解釈が欠如している。 同時に、生成的セッティングの拡散は、鮮明で高品質な結果を生み出す顕著な能力を示し、(変分推論からフィッシャーダイバージェンスとして直接研究まで)しっかりとした理論的基盤を持っている。 我々の研究は、自己エンコーダ表現学習と拡散を組み合わせ、拡散に基づく損失の下で連続エンコーダとデコーダを共同で学習する効果を初めて示すものである。 提案手法は,GANベースのオートエンコーダに比べてチューニングが容易でありながら,再構築品質が向上することを示す。 また, 得られた表現は, 最先端のGANに基づく損失から得られた表現と比較して, 潜時拡散モデルによりモデル化し易いことを示す。 我々のデコーダは確率的であるため、そうでない決定論的潜在表現にエンコードされていない詳細を生成することができる。

For learned image representations, basic autoencoders often produce blurry results. Reconstruction quality can be improved by incorporating additional penalties such as adversarial (GAN) and perceptual losses. Arguably, these approaches lack a principled interpretation. Concurrently, in generative settings diffusion has demonstrated a remarkable ability to create crisp, high quality results and has solid theoretical underpinnings (from variational inference to direct study as the Fisher Divergence). Our work combines autoencoder representation learning with diffusion and is, to our knowledge, the first to demonstrate the efficacy of jointly learning a continuous encoder and decoder under a diffusion-based loss. We demonstrate that this approach yields better reconstruction quality as compared to GAN-based autoencoders while being easier to tune. We also show that the resulting representation is easier to model with a latent diffusion model as compared to the representation obtained from a state-of-the-art GAN-based loss. Since our decoder is stochastic, it can generate details not encoded in the otherwise deterministic latent representation; we therefore name our approach "Sample what you can't compress", or SWYCC for short.
翻訳日:2024-11-07 23:45:04 公開日:2024-10-16
# アクティブフェイク:ディープフェイクカモフラージュ

Active Fake: DeepFake Camouflage ( http://arxiv.org/abs/2409.03200v2 )

ライセンス: Link先を確認
Pu Sun, Honggang Qi, Yuezun Li, (参考訳) DeepFakeの技術は、顔の特徴を高いリアリズムで操り、深刻な社会的関心を喚起する能力によって、大きな注目を集めている。 フェイススワップディープフェイクはこれらの技術の中でも最も有害であり、元の顔と合成顔とを交換することで振る舞いを創り出す。 既存の法医学的手法は、主にディープニューラルネットワーク(DNN)に基づいており、これらの操作を効果的に公開し、重要な認証指標となっている。 しかし、これらの手法は主にDeepFakeの顔のブレンド不整合を捉え、Active Fakeと呼ばれる新しいセキュリティ問題を提起する。 この戦術はディープフェイク・カモフラージュ(DeepFake Camouflage)と呼ばれる。 これを実現するために,混合不整合を発生させるDeepFake camouflageを作成するための新しいフレームワークを提案する。 このフレームワークは、敵対的な学習戦略によって最適化され、法医学的検出器を誤解させるには、理解できないが効果的な矛盾を解く。 大規模な実験により,本手法の有効性とロバスト性を実証し,アクティブフェイク検出におけるさらなる研究の必要性を浮き彫りにした。

DeepFake technology has gained significant attention due to its ability to manipulate facial attributes with high realism, raising serious societal concerns. Face-Swap DeepFake is the most harmful among these techniques, which fabricates behaviors by swapping original faces with synthesized ones. Existing forensic methods, primarily based on Deep Neural Networks (DNNs), effectively expose these manipulations and have become important authenticity indicators. However, these methods mainly concentrate on capturing the blending inconsistency in DeepFake faces, raising a new security issue, termed Active Fake, emerges when individuals intentionally create blending inconsistency in their authentic videos to evade responsibility. This tactic is called DeepFake Camouflage. To achieve this, we introduce a new framework for creating DeepFake camouflage that generates blending inconsistencies while ensuring imperceptibility, effectiveness, and transferability. This framework, optimized via an adversarial learning strategy, crafts imperceptible yet effective inconsistencies to mislead forensic detectors. Extensive experiments demonstrate the effectiveness and robustness of our method, highlighting the need for further research in active fake detection.
翻訳日:2024-11-07 23:23:02 公開日:2024-10-16
# 単純非分解性量子チャネルにおける量子容量の付加性

Additivity of quantum capacities in simple non-degradable quantum channels ( http://arxiv.org/abs/2409.03927v2 )

ライセンス: Link先を確認
Graeme Smith, Peixue Wu, (参考訳) 量子チャネル容量は、通信チャネル上の情報フローの基本的な性能限界を与える。 しかし、重付加能の出現は、量的にも概念的にも、キャパシティを理解する上で大きな障害となる。 添加性の例は稀であるが、非添加性の起源に関する重要な洞察を与え、容量の最高の上限を可能にする。 付加的なコヒーレント情報を持つ分解可能なチャネルは、量子容量を計算できる唯一のチャネルである。 本稿では, 付加的コヒーレントな情報を持ちながら容易に計算可能な量子チャネルを構築する。 第一級の例は、Leditzkyらによって導入されたPlatypusチャネルを一般化することで構成され、これは添加性と非添加性の興味深い性質を示す。 2つ目の例は、予測された逆型データ処理の不等式から付加性が従うもので、分解可能なチャネルと非分解性チャネルの確率的混合に基づいている。 副産物として、量子容量がゼロの量子チャネルのいくつかの可能な例を挙げる。

Quantum channel capacities give the fundamental performance limits for information flow over a communication channel. However, the prevalence of superadditivity is a major obstacle to understanding capacities, both quantitatively and conceptually. Examples of additivity, while rare, provide key insight into the origins of nonadditivity and enable our best upper bounds on capacities. Degradable channels, which have additive coherent information, are some of the only channels for which we can calculate the quantum capacity. In this paper we construct non-degradable quantum channels that nevertheless have additive coherent information and therefore easily calculated quantum capacity. The first class of examples is constructed by generalizing the Platypus channel, as introduced by Leditzky et al., which demonstrates interesting properties of additivity and non-additivity. The second class of examples, whose additivity follows from a conjectured reverse-type data processing inequality, is based on probabilistic mixture of degradable and anti-degradable channels. As a byproduct, we provide some possible examples of quantum channels with zero quantum capacity, which are neither anti-degradable nor PPT.
翻訳日:2024-11-07 23:11:54 公開日:2024-10-16
# ミスマッチ実行時のワンショット模倣

One-Shot Imitation under Mismatched Execution ( http://arxiv.org/abs/2409.06615v3 )

ライセンス: Link先を確認
Kushal Kedia, Prithwish Dan, Angela Chao, Maximus Adrian Pace, Sanjiban Choudhury, (参考訳) プロンプトとしての人間のデモは、ロボットに長距離操作のタスクをプログラムするための強力な方法だ。 しかしながら、これらのデモをロボット実行可能なアクションに変換することは、運動スタイルや身体能力における実行ミスマッチによる重大な課題を呈する。 既存の方法は、スケールが不可能なロボットとデモレータのペアデータに依存するか、あるいは実際に故障することが多いフレームレベルの視覚的類似性に強く依存する。 これらの課題に対処するために,ロボットとデモレータのタスク実行を最適な輸送コストで自動調整する新しいフレームワークであるRHyMEを提案する。 ロングホライズンロボットのデモが与えられた後、RHyMEはショートホライズン・デモンストレーターのクリップを検索して合成することで意味論的に等価なデモンストレータービデオを合成する。 このアプローチは、ペアデータを必要としない効果的なポリシートレーニングを促進する。 我々は,RHyMEが,従来よりもタスクリコールが52%増加したことを実証した。 コードとデータセットはhttps://portal-cornell.github.io/rhyme/で公開しています。

Human demonstrations as prompts are a powerful way to program robots to do long-horizon manipulation tasks. However, translating these demonstrations into robot-executable actions presents significant challenges due to execution mismatches in movement styles and physical capabilities. Existing methods either depend on robot-demonstrator paired data, which is infeasible to scale, or rely too heavily on frame-level visual similarities that often break down in practice. To address these challenges, we propose RHyME, a novel framework that automatically aligns robot and demonstrator task executions using optimal transport costs. Given long-horizon robot demonstrations, RHyME synthesizes semantically equivalent demonstrator videos by retrieving and composing short-horizon demonstrator clips. This approach facilitates effective policy training without the need for paired data. We demonstrate that RHyME outperforms a range of baselines across cross-embodiment datasets, showing a 52% increase in task recall over prior cross-embodiment learning methods. We release our code and datasets at https://portal-cornell.github.io/rhyme/.
翻訳日:2024-11-07 22:05:05 公開日:2024-10-16
# ミスマッチ実行時のワンショット模倣

One-Shot Imitation under Mismatched Execution ( http://arxiv.org/abs/2409.06615v4 )

ライセンス: Link先を確認
Kushal Kedia, Prithwish Dan, Angela Chao, Maximus Adrian Pace, Sanjiban Choudhury, (参考訳) プロンプトとしての人間のデモは、ロボットに長距離操作のタスクをプログラムするための強力な方法だ。 しかしながら、これらのデモをロボット実行可能なアクションに変換することは、運動スタイルや身体能力における実行ミスマッチによる重大な課題を呈する。 既存の方法は、スケールが不可能な人間とロボットのペアデータに依存するか、あるいは実際に故障することが多いフレームレベルの視覚的類似性に大きく依存する。 これらの課題に対処するために、最適な輸送コストを用いて人間とロボットのタスク実行を自動的に調整する新しいフレームワークRHyMEを提案する。 ロングホライズンロボットのデモが与えられた後、RHyMEは短いホライズン人間のクリップを検索して合成することによって、意味的に等価な人間のビデオを生成する。 このアプローチは、ペアデータを必要としない効果的なポリシートレーニングを促進する。 RHyMEは、シミュレーションと実際の人手の両方で、様々なクロス・エボディメント・デモレータを模倣し、従来の方法に比べてタスク成功率が50%以上向上した。 データセットとグラフィックは、このhttps://portal.cs.cornell.edu/rhyme/で公開しています。

Human demonstrations as prompts are a powerful way to program robots to do long-horizon manipulation tasks. However, translating these demonstrations into robot-executable actions presents significant challenges due to execution mismatches in movement styles and physical capabilities. Existing methods either depend on human-robot paired data, which is infeasible to scale, or rely heavily on frame-level visual similarities that often break down in practice. To address these challenges, we propose RHyME, a novel framework that automatically aligns human and robot task executions using optimal transport costs. Given long-horizon robot demonstrations, RHyME synthesizes semantically equivalent human videos by retrieving and composing short-horizon human clips. This approach facilitates effective policy training without the need for paired data. RHyME successfully imitates a range of cross-embodiment demonstrators, both in simulation and with a real human hand, achieving over 50\% increase in task success compared to previous methods. We release our datasets and graphics at this https://portal.cs.cornell.edu/rhyme/.
翻訳日:2024-11-07 22:05:05 公開日:2024-10-16
# 複数の正解を用いたニューラルアルゴリズム推論

Neural Algorithmic Reasoning with Multiple Correct Solutions ( http://arxiv.org/abs/2409.06953v2 )

ライセンス: Link先を確認
Zeno Kujawa, John Poole, Dobrik Georgiev, Danilo Numeroso, Pietro Liò, (参考訳) Neural Algorithmic Reasoning (NAR)は、古典的なアルゴリズムを最適化することを目的としている。 しかし、NARの標準的な実装は、単一ソースの最短経路のような問題に対する複数の正しい解決策がある場合でも、単一のソリューションのみを返すようにニューラルネットワークを訓練する。 一部のアプリケーションでは、複数の正しい解を回復することが望ましい。 そのために,複数のソリューションを用いた最初のNAR法を提案する。 本稿では,Bellman-Ford (BF) とDepth-First Search (DFS) の2つのアルゴリズムについて,より広範なアルゴリズム調査よりも2つのアルゴリズムについてより深い知見を求める。 この方法は、モデル出力からソリューションをサンプリングし、検証するだけでなく、適切なトレーニングデータを生成することを含む。 提案手法の各ステップは,本論文で提示されたタスクを超えて,ニューラルネットワーク推論の枠組みとして機能する。

Neural Algorithmic Reasoning (NAR) aims to optimize classical algorithms. However, canonical implementations of NAR train neural networks to return only a single solution, even when there are multiple correct solutions to a problem, such as single-source shortest paths. For some applications, it is desirable to recover more than one correct solution. To that end, we give the first method for NAR with multiple solutions. We demonstrate our method on two classical algorithms: Bellman-Ford (BF) and Depth-First Search (DFS), favouring deeper insight into two algorithms over a broader survey of algorithms. This method involves generating appropriate training data as well as sampling and validating solutions from model output. Each step of our method, which can serve as a framework for neural algorithmic reasoning beyond the tasks presented in this paper, might be of independent interest to the field and our results represent the first attempt at this task in the NAR literature.
翻訳日:2024-11-07 21:53:46 公開日:2024-10-16
# InterACT:双方向マニピュレーションのための階層型アテンショントランスを用いた相互依存型アクションチャンキング

InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation ( http://arxiv.org/abs/2409.07914v3 )

ライセンス: Link先を確認
Andrew Lee, Ian Chuang, Ling-Yuan Chen, Iman Soltani, (参考訳) 双対操作は、2つのロボットアームの調整が複雑になるため、一対のタスクよりも独特な課題を呈する。 本稿では,相互操作に特化した新しい模倣学習フレームワークであるInterACT: Inter-dependency aware Action Chunking with Hierarchical Attention Transformersを紹介する。 InterACTは階層的な注意機構を利用して、両腕関節状態と視覚入力の間の依存性を効果的に捉える。 本発明のフレームワークは、セグメントワイド及びクロスセグメントアテンション機構を介してマルチモーダル入力を処理する階層型アテンションエンコーダと、他のアームの中間出力をコンテキストとして、同期ブロックを介してアーム間で情報を共有しながら、各アームの動作予測を並列に生成するマルチアームデコーダとを備える。 シミュレーションおよび実世界の実世界のバイマニュアル操作タスクで行った実験は、InterACTが既存の手法より優れていることを示した。 詳細なアブレーション研究は、CLSトークン、クロスセグメントエンコーダ、同期ブロックがタスクパフォーマンスに与える影響など、重要なコンポーネントの重要性をさらに検証している。 プロジェクトページで補足資料とビデオを提供しています。

Bimanual manipulation presents unique challenges compared to unimanual tasks due to the complexity of coordinating two robotic arms. In this paper, we introduce InterACT: Inter-dependency aware Action Chunking with Hierarchical Attention Transformers, a novel imitation learning framework designed specifically for bimanual manipulation. InterACT leverages hierarchical attention mechanisms to effectively capture inter-dependencies between dual-arm joint states and visual inputs. The framework comprises a Hierarchical Attention Encoder, which processes multi-modal inputs through segment-wise and cross-segment attention mechanisms, and a Multi-arm Decoder that generates each arm's action predictions in parallel, while sharing information between the arms through synchronization blocks by providing the other arm's intermediate output as context. Our experiments, conducted on various simulated and real-world bimanual manipulation tasks, demonstrate that InterACT outperforms existing methods. Detailed ablation studies further validate the significance of key components, including the impact of CLS tokens, cross-segment encoders, and synchronization blocks on task performance. We provide supplementary materials and videos on our project page.
翻訳日:2024-11-07 21:31:36 公開日:2024-10-16
# バッチサイズと学習速度の増大は確率的勾配の進行を加速させる

Increasing Both Batch Size and Learning Rate Accelerates Stochastic Gradient Descent ( http://arxiv.org/abs/2409.08770v2 )

ライセンス: Link先を確認
Hikaru Umeda, Hideaki Iiduka, (参考訳) ミニバッチ確率勾配降下(SGD)の性能は、ディープニューラルネットワークのトレーニングにおける経験的損失を最小限に抑えるためにバッチサイズと学習率の設定に強く依存する。 本稿では,4つのスケジューラを用いたミニバッチSGDの理論解析について述べる。 一 一定のバッチサイズ及び減衰学習率スケジューラ (ii)バッチサイズの増加と学習速度の低下 三 バッチサイズの増加及び学習率スケジューラの増加 (4) バッチサイズの増加と温暖化学習率スケジューラ。 スケジューラを用いたミニバッチSGDについて示す。 i) 必ずしも経験的損失の完全な勾配ノルムの期待を最小化するわけではないが、スケジューラは一切使用しない。 (ii) (三)及び(三) (4)。 さらにスケジューラ (三)及び(三) (4)ミニバッチSGDを加速する。 また,スケジューラを用いた解析結果の数値化も行う。 (iii)? (iv)スケジューラを使用するよりも高速に経験的損失の完全な勾配ノルムを最小化する (i)または (II)。

The performance of mini-batch stochastic gradient descent (SGD) strongly depends on setting the batch size and learning rate to minimize the empirical loss in training the deep neural network. In this paper, we present theoretical analyses of mini-batch SGD with four schedulers: (i) constant batch size and decaying learning rate scheduler, (ii) increasing batch size and decaying learning rate scheduler, (iii) increasing batch size and increasing learning rate scheduler, and (iv) increasing batch size and warm-up decaying learning rate scheduler. We show that mini-batch SGD using scheduler (i) does not always minimize the expectation of the full gradient norm of the empirical loss, whereas it does using any of schedulers (ii), (iii), and (iv). Furthermore, schedulers (iii) and (iv) accelerate mini-batch SGD. The paper also provides numerical results of supporting analyses showing that using scheduler (iii) or (iv) minimizes the full gradient norm of the empirical loss faster than using scheduler (i) or (ii).
翻訳日:2024-11-07 21:09:04 公開日:2024-10-16
# バッチサイズと学習速度の増大は確率的勾配の進行を加速させる

Increasing Both Batch Size and Learning Rate Accelerates Stochastic Gradient Descent ( http://arxiv.org/abs/2409.08770v3 )

ライセンス: Link先を確認
Hikaru Umeda, Hideaki Iiduka, (参考訳) ミニバッチ確率勾配降下(SGD)の性能は、ディープニューラルネットワークのトレーニングにおける経験的損失を最小限に抑えるためにバッチサイズと学習率の設定に強く依存する。 本稿では,4つのスケジューラを用いたミニバッチSGDの理論解析について述べる。 一 一定のバッチサイズ及び減衰学習率スケジューラ (ii)バッチサイズの増加と学習速度の低下 三 バッチサイズの増加及び学習率スケジューラの増加 (4) バッチサイズの増加と温暖化学習率スケジューラ。 スケジューラを用いたミニバッチSGDについて示す。 i) 必ずしも経験的損失の完全な勾配ノルムの期待を最小化するわけではないが、スケジューラは一切使用しない。 (ii) (三)及び(三) (4)。 さらにスケジューラ (三)及び(三) (4)ミニバッチSGDを加速する。 また,スケジューラを用いた解析結果の数値化も行う。 (iii)? (iv)スケジューラを使用するよりも高速に経験的損失の完全な勾配ノルムを最小化する (i)または (II)。

The performance of mini-batch stochastic gradient descent (SGD) strongly depends on setting the batch size and learning rate to minimize the empirical loss in training the deep neural network. In this paper, we present theoretical analyses of mini-batch SGD with four schedulers: (i) constant batch size and decaying learning rate scheduler, (ii) increasing batch size and decaying learning rate scheduler, (iii) increasing batch size and increasing learning rate scheduler, and (iv) increasing batch size and warm-up decaying learning rate scheduler. We show that mini-batch SGD using scheduler (i) does not always minimize the expectation of the full gradient norm of the empirical loss, whereas it does using any of schedulers (ii), (iii), and (iv). Furthermore, schedulers (iii) and (iv) accelerate mini-batch SGD. The paper also provides numerical results of supporting analyses showing that using scheduler (iii) or (iv) minimizes the full gradient norm of the empirical loss faster than using scheduler (i) or (ii).
翻訳日:2024-11-07 21:09:04 公開日:2024-10-16
# MALADY: グラフ上のオークションダイナミクスを用いたマルチクラスアクティブラーニング

MALADY: Multiclass Active Learning with Auction Dynamics on Graphs ( http://arxiv.org/abs/2409.09475v2 )

ライセンス: Link先を確認
Gokul Bhusal, Kevin Miller, Ekaterina Merkurjev, (参考訳) アクティブラーニングは、特に半教師付きケースにおいて、基礎となる分類器の性能を向上させることを目的として、ラベル付けのための限られた数のラベル付きデータポイントを任意に選択することで、機械学習手法の性能を向上させる。 本稿では,類似性グラフ上でのオークションダイナミクスを有効活用し,効率的なアクティブラーニングを実現するためのマルチクラスアクティブラーニング(MALADY)フレームワークを提案する。 特に,[24]における半教師付き学習のための類似性グラフ上のオークションダイナミクスアルゴリズムを一般化し,より汎用的な最適化関数を組み込む。 さらに,オークションアルゴリズムの二重変数を用いて,分類器内の不確実性を測定し,異なるクラス間の決定境界付近のクエリを優先順位付けする,新しい能動的学習獲得関数を導入する。 最後に、分類タスクの実験を用いて、提案手法の性能を評価し、比較アルゴリズムよりも優れていることを示す。

Active learning enhances the performance of machine learning methods, particularly in semi-supervised cases, by judiciously selecting a limited number of unlabeled data points for labeling, with the goal of improving the performance of an underlying classifier. In this work, we introduce the Multiclass Active Learning with Auction Dynamics on Graphs (MALADY) framework which leverages the auction dynamics algorithm on similarity graphs for efficient active learning. In particular, we generalize the auction dynamics algorithm on similarity graphs for semi-supervised learning in [24] to incorporate a more general optimization functional. Moreover, we introduce a novel active learning acquisition function that uses the dual variable of the auction algorithm to measure the uncertainty in the classifier to prioritize queries near the decision boundaries between different classes. Lastly, using experiments on classification tasks, we evaluate the performance of our proposed method and show that it exceeds that of comparison algorithms.
翻訳日:2024-11-07 20:57:42 公開日:2024-10-16
# 大規模言語モデルによる因果推論:調査

Causal Inference with Large Language Model: A Survey ( http://arxiv.org/abs/2409.09822v2 )

ライセンス: Link先を確認
Jing Ma, (参考訳) 因果推論は医学や経済学などの様々な分野において重要な課題であり、人間の知識、数学的推論、データマイニング能力の複雑な統合を要求している。 自然言語処理(NLP)の最近の進歩、特に大規模言語モデル(LLM)の出現により、従来の因果推論タスクに有望な機会が導入された。 本稿では,LLMを因果推論に適用する最近の進歩を概説する。 主な因果問題とアプローチを要約し、その評価結果を異なる因果シナリオで比較する。 さらに、今後の研究の要点と方向性について論じ、因果推論手法の進歩におけるLCMの統合の可能性について考察する。

Causal inference has been a pivotal challenge across diverse domains such as medicine and economics, demanding a complicated integration of human knowledge, mathematical reasoning, and data mining capabilities. Recent advancements in natural language processing (NLP), particularly with the advent of large language models (LLMs), have introduced promising opportunities for traditional causal inference tasks. This paper reviews recent progress in applying LLMs to causal inference, encompassing various tasks spanning different levels of causation. We summarize the main causal problems and approaches, and present a comparison of their evaluation results in different causal scenarios. Furthermore, we discuss key findings and outline directions for future research, underscoring the potential implications of integrating LLMs in advancing causal inference methodologies.
翻訳日:2024-11-07 20:46:36 公開日:2024-10-16
# 因果的視点から見たグラフ機械学習におけるアウト・オブ・ディストリビューションの一般化に関する調査

A Survey of Out-of-distribution Generalization for Graph Machine Learning from a Causal View ( http://arxiv.org/abs/2409.09858v2 )

ライセンス: Link先を確認
Jing Ma, (参考訳) グラフ機械学習(GML)は、幅広いタスクでうまく適用されている。 それでもGMLは、アウト・オブ・ディストリビューション(OOD)データを一般化する上で、大きな課題に直面している。 近年の進歩は、これらの一般化の課題を克服する上で、因果関係によるアプローチの重要な役割を浮き彫りにしている。 統計的依存に大きく依存する従来のGML手法とは違い、因果性を重視した戦略は、データ生成とモデル予測の根底にある因果的メカニズムを掘り下げ、異なる環境におけるGMLの一般化を著しく改善する。 本稿では,因果関係のGML一般化の最近の進歩を概観する。 本稿では,因果性を利用したグラフモデル一般化の基本的な概念を解明し,様々なアプローチを分類し,それらの方法論とそれらの相互関係を詳細に記述する。 さらに、信頼性の高いGMLの他の重要な領域、例えば説明、公正性、堅牢性における因果関係の組み入れについて検討する。 今後の研究方向性に関する議論をまとめて、このレビューはグラフ機械学習の信頼性を高めるための因果関係の継続的な発展と将来の可能性を明確にすることを目的としている。

Graph machine learning (GML) has been successfully applied across a wide range of tasks. Nonetheless, GML faces significant challenges in generalizing over out-of-distribution (OOD) data, which raises concerns about its wider applicability. Recent advancements have underscored the crucial role of causality-driven approaches in overcoming these generalization challenges. Distinct from traditional GML methods that primarily rely on statistical dependencies, causality-focused strategies delve into the underlying causal mechanisms of data generation and model prediction, thus significantly improving the generalization of GML across different environments. This paper offers a thorough review of recent progress in causality-involved GML generalization. We elucidate the fundamental concepts of employing causality to enhance graph model generalization and categorize the various approaches, providing detailed descriptions of their methodologies and the connections among them. Furthermore, we explore the incorporation of causality in other related important areas of trustworthy GML, such as explanation, fairness, and robustness. Concluding with a discussion on potential future research directions, this review seeks to articulate the continuing development and future potential of causality in enhancing the trustworthiness of graph machine learning.
翻訳日:2024-11-07 20:46:36 公開日:2024-10-16
# 因果的視点から見たグラフ機械学習におけるアウト・オブ・ディストリビューションの一般化に関する調査

A Survey of Out-of-distribution Generalization for Graph Machine Learning from a Causal View ( http://arxiv.org/abs/2409.09858v3 )

ライセンス: Link先を確認
Jing Ma, (参考訳) グラフ機械学習(GML)は、幅広いタスクでうまく適用されている。 それでもGMLは、アウト・オブ・ディストリビューション(OOD)データを一般化する上で、大きな課題に直面している。 近年の進歩は、これらの一般化の課題を克服する上で、因果関係によるアプローチの重要な役割を浮き彫りにしている。 統計的依存に大きく依存する従来のGML手法とは違い、因果性を重視した戦略は、データ生成とモデル予測の根底にある因果的メカニズムを掘り下げ、異なる環境におけるGMLの一般化を著しく改善する。 本稿では,因果関係のGML一般化の最近の進歩を概観する。 本稿では,因果性を利用したグラフモデル一般化の基本的な概念を解明し,様々なアプローチを分類し,それらの方法論とそれらの相互関係を詳細に記述する。 さらに、信頼性の高いGMLの他の重要な領域、例えば説明、公正性、堅牢性における因果関係の組み入れについて検討する。 今後の研究方向性に関する議論をまとめて、このレビューはグラフ機械学習の信頼性を高めるための因果関係の継続的な発展と将来の可能性を明確にすることを目的としている。

Graph machine learning (GML) has been successfully applied across a wide range of tasks. Nonetheless, GML faces significant challenges in generalizing over out-of-distribution (OOD) data, which raises concerns about its wider applicability. Recent advancements have underscored the crucial role of causality-driven approaches in overcoming these generalization challenges. Distinct from traditional GML methods that primarily rely on statistical dependencies, causality-focused strategies delve into the underlying causal mechanisms of data generation and model prediction, thus significantly improving the generalization of GML across different environments. This paper offers a thorough review of recent progress in causality-involved GML generalization. We elucidate the fundamental concepts of employing causality to enhance graph model generalization and categorize the various approaches, providing detailed descriptions of their methodologies and the connections among them. Furthermore, we explore the incorporation of causality in other related important areas of trustworthy GML, such as explanation, fairness, and robustness. Concluding with a discussion on potential future research directions, this review seeks to articulate the continuing development and future potential of causality in enhancing the trustworthiness of graph machine learning.
翻訳日:2024-11-07 20:46:36 公開日:2024-10-16
# 限界を知る! 自己認識によるロボットの動作の最適化

Know your limits! Optimize the robot's behavior through self-awareness ( http://arxiv.org/abs/2409.10308v2 )

ライセンス: Link先を確認
Esteve Valls Mascaro, Dongheui Lee, (参考訳) ヒューマノイドロボットは実験室から現実の環境へ移行するので、非熟練者のためのロボット制御を民主化することが不可欠である。 近年の人間ロボット模倣アルゴリズムは、人間の動きを高精度に追従することに重点を置いているが、それらが参照動作の品質に影響を受けやすいため、ロボットの能力に合わせた動作を単純化する必要がある。 その代わり、ロボットは参照動作を自身の能力に理解し、適応させ、オペレーターの作業を容易にするべきであると考える。 そこで本研究では,特定の参照を模倣する際のロボットの性能を予測できるディープラーニングモデルを提案する。 そこで本システムは,ハイレベルなタスクコマンドを与えられた複数の参照を生成し,それぞれにスコアを割り当て,最適な参照を選択してロボット動作を実現する。 我々のSAW(Self-AWare Model)は、転倒確率、基準運動への固執、滑らかさといった様々な基準に基づいて、潜在的なロボットの挙動をランク付けする。 我々は,高度な動作生成,ロボット制御,SAWを1つのユニークなシステムに統合し,タスクコマンドに対して最適なロボット動作を確保する。 例えば、SAWは99.29%の精度で落下を予測できる。 詳細はプロジェクトのページを参照してください。

As humanoid robots transition from labs to real-world environments, it is essential to democratize robot control for non-expert users. Recent human-robot imitation algorithms focus on following a reference human motion with high precision, but they are susceptible to the quality of the reference motion and require the human operator to simplify its movements to match the robot's capabilities. Instead, we consider that the robot should understand and adapt the reference motion to its own abilities, facilitating the operator's task. For that, we introduce a deep-learning model that anticipates the robot's performance when imitating a given reference. Then, our system can generate multiple references given a high-level task command, assign a score to each of them, and select the best reference to achieve the desired robot behavior. Our Self-AWare model (SAW) ranks potential robot behaviors based on various criteria, such as fall likelihood, adherence to the reference motion, and smoothness. We integrate advanced motion generation, robot control, and SAW in one unique system, ensuring optimal robot behavior for any task command. For instance, SAW can anticipate falls with 99.29% accuracy. For more information check our project page: https://evm7.github.io/Self-AWare
翻訳日:2024-11-07 20:35:12 公開日:2024-10-16
# ユニタリ回路における保存スーパーオペレータの非ユニバーサリティ

Non-Universality from Conserved Superoperators in Unitary Circuits ( http://arxiv.org/abs/2409.11407v2 )

ライセンス: Link先を確認
Marco Lastres, Frank Pollmann, Sanjay Moudgalya, (参考訳) 量子制御理論における重要な結果は、局所的ユニタリゲートの「ユニバーサリティ」すなわち、$L$クォーディットのシステムのグローバルなユニタリ進化が、局所的ユニタリゲートの合成によって実現されるという事実である。 一般的に、すべてのグローバル対称ユニタリは、$k$-局所対称ユニタリゲートを使って構成できるわけではない。 これはまた、対称局所ハミルトニアンによって実装できる力学を制限する。 本稿では、そのような設定における普遍性に対する障害は、一般に、制限されたゲート集合によるユニタリ進化に関連する超作用素対称性の観点で理解することができることを示す。 これらの超作用素対称性は作用素ヒルベルト空間の分解をブロックし、作用素空間の接続を規定し、したがって動的リー代数の構造を規定する。 我々は、他の量子多体系における対称性を体系的に導出するために用いられる可換代数の枠組みを用いて、ゲート構造から超作用素対称性を体系的に導出することで、これをいくつかの例で明確に示す。 我々は、超作用素対称性の異なる構造に由来する2つの異なる非ユニバーサリティを明確に記述し、その物理観測可能性におけるシグネチャについて議論する。 全体として、我々の研究はユニタリ回路の普遍性を探求し、その欠如による物理的帰結を導出するための包括的な枠組みを確立している。

An important result in the theory of quantum control is the "universality" of $2$-local unitary gates, i.e. the fact that any global unitary evolution of a system of $L$ qudits can be implemented by composition of $2$-local unitary gates. Surprisingly, recent results have shown that universality can break down in the presence of symmetries: in general, not all globally symmetric unitaries can be constructed using $k$-local symmetric unitary gates. This also restricts the dynamics that can be implemented by symmetric local Hamiltonians. In this paper, we show that obstructions to universality in such settings can in general be understood in terms of superoperator symmetries associated with unitary evolution by restricted sets of gates. These superoperator symmetries lead to block decompositions of the operator Hilbert space, which dictate the connectivity of operator space, and hence the structure of the dynamical Lie algebra. We demonstrate this explicitly in several examples by systematically deriving the superoperator symmetries from the gate structure using the framework of commutant algebras, which has been used to systematically derive symmetries in other quantum many-body systems. We clearly delineate two different types of non-universality, which stem from different structures of the superoperator symmetries, and discuss its signatures in physical observables. In all, our work establishes a comprehensive framework to explore the universality of unitary circuits and derive physical consequences of its absence.
翻訳日:2024-11-07 20:01:55 公開日:2024-10-16
# 時系列基礎モデルにおける展開と操作概念

Unveiling and Manipulating Concepts in Time Series Foundation Models ( http://arxiv.org/abs/2409.12915v1 )

ライセンス: Link先を確認
Michał Wiliński, Mononito Goswami, Nina Żukowska, Willa Potosnak, Artur Dubrawski, (参考訳) 時系列基礎モデルは、幅広いアプリケーションのための強力なツールであることを約束します。 しかし、これらのモデルが学習する概念についてはほとんど知られていない。 本研究は,これらのモデルによって学習された概念を同定し,モデルの特定の部分に局所化し,合成時系列データを用いてモデル予測を行うことにより,これらのギャップを埋めるものである。 以上の結果から,現状の基盤モデルであるMOMENTは時系列パターンを識別し,ネットワークの中間層でピークとなることを示す。 さらに、モデル出力は、そのアクティベーションからの洞察(例えば、推論中の介入を通じて、初期一定信号に周期的傾向を導入することで)を用いて評価できることを示す。 本研究は, 時系列基礎モデルの研究とステアリングにおける合成データの重要性を, 単一の層ではなく, モデル全体(ステアリング行列を用いて)を介在させることで明らかにした。

Time series foundation models promise to be powerful tools for a wide range of applications. However, little is known about the concepts that these models learn and how can we manipulate them in the latent space. Our study bridges these gaps by identifying concepts learned by these models, localizing them to specific parts of the model, and steering model predictions along these conceptual directions, using synthetic time series data. Our results show that MOMENT, a state-of-the-art foundation model, can discern distinct time series patterns, and that this ability peaks in the middle layers of the network. Moreover, we show that model outputs can be steered using insights from its activations (e.g., by introducing periodic trends to initially constant signals through intervention during inference). Our findings underscore the importance of synthetic data in studying and steering time series foundation models and intervening throughout the whole model (using steering matrices), instead of a single layer.
翻訳日:2024-11-07 12:59:09 公開日:2024-10-16
# 時系列基礎モデルにおける表現と介入の探索

Exploring Representations and Interventions in Time Series Foundation Models ( http://arxiv.org/abs/2409.12915v2 )

ライセンス: Link先を確認
Michał Wiliński, Mononito Goswami, Nina Żukowska, Willa Potosnak, Artur Dubrawski, (参考訳) 時系列基礎モデル(TSFM)は、幅広いアプリケーションのための強力なツールであることを約束する。 しかし、それらの内部表現や学習された概念はまだよく理解されていない。 本研究では,様々なTSFMにおける表現の構造と冗長性について検討し,モデル層内およびモデルサイズ間の自己相似性について検討した。 この分析により,情報プレーニングに利用して推論速度と効率を向上させることができる表現におけるブロック状の冗長性を明らかにした。 さらに、周期性やトレンドなど、これらのモデルから学んだ概念や、モデルの振る舞いに影響を与えるために潜在空間のステアリングを通じてこれらをどのように操作するかについても検討する。 我々の実験は、ステアリング介入は、例えば、周期性やトレンドを欠いた信号に付加することで、新しい特徴を導入することができることを示している。 これらの結果は、モデル最適化のための表現分析の価値を強調し、概念的ステアリングがTSFMを用いたより制御され効率的な時系列解析にどのように新しい可能性をもたらすかを実証する。

Time series foundation models (TSFMs) promise to be powerful tools for a wide range of applications. However, their internal representations and learned concepts are still not well understood. In this study, we investigate the structure and redundancy of representations across various TSFMs, examining the self-similarity of model layers within and across different model sizes. This analysis reveals block-like redundancy in the representations, which can be utilized for informed pruning to improve inference speed and efficiency. Additionally, we explore the concepts learned by these models - such as periodicity and trends - and how these can be manipulated through latent space steering to influence model behavior. Our experiments show that steering interventions can introduce new features, e.g., adding periodicity or trends to signals that initially lacked them. These findings underscore the value of representational analysis for optimizing models and demonstrate how conceptual steering offers new possibilities for more controlled and efficient time series analysis with TSFMs.
翻訳日:2024-11-07 12:59:09 公開日:2024-10-16
# LLMにおけるReward-Robust RLHF

Reward-Robust RLHF in LLMs ( http://arxiv.org/abs/2409.15360v2 )

ライセンス: Link先を確認
Yuzi Yan, Xingzhou Lou, Jialian Li, Yiping Zhang, Jian Xie, Chao Yu, Yu Wang, Dong Yan, Yuan Shen, (参考訳) 大規模言語モデル(LLM)がより高度なインテリジェンスへと進化し続けるにつれ、人間フィードバックからの強化学習(RLHF)は、人工知能(AGI)を実現するための重要な経路としてますます見なされている。 しかし、報酬モデルに基づくアライメント手法への依存は、リワードモデル(RM)の本質的な不安定性と不完全性のために重大な課題をもたらし、報酬のハッキングや人間の意図の不一致といった重大な問題を引き起こす可能性がある。 本稿では、これらの基本的な課題に対処し、LLMにおけるより信頼性が高く弾力性のある学習の道を開くことを目的とした報奨ロバストなRLHFフレームワークを提案する。 提案手法では,不確実な報酬関数の集合をモデル化するためにベイジアン・リワード・モデル・アンサンブル(BRME)を組み込むことにより,性能とロバスト性を慎重にバランスさせる新しい最適化手法を提案する。 これにより、フレームワークは名目上のパフォーマンスと最小報酬のシグナルを統合でき、不完全なRMでもより安定した学習を保証できる。 実験の結果、我々のフレームワークは様々なベンチマークで一貫してベースラインを上回り、精度と長期的な安定性が向上していることが示された。 また,RLHFが一定の報酬設定の安定性に近づき,確率解析においても許容できることを示す理論解析を行った。 これらのコントリビューションは、LLMアライメントの性能と安定性を両立させるフレームワークの可能性を強調している。

As Large Language Models (LLMs) continue to progress toward more advanced forms of intelligence, Reinforcement Learning from Human Feedback (RLHF) is increasingly seen as a key pathway toward achieving Artificial General Intelligence (AGI). However, the reliance on reward-model-based (RM-based) alignment methods introduces significant challenges due to the inherent instability and imperfections of Reward Models (RMs), which can lead to critical issues such as reward hacking and misalignment with human intentions. In this paper, we introduce a reward-robust RLHF framework aimed at addressing these fundamental challenges, paving the way for more reliable and resilient learning in LLMs. Our approach introduces a novel optimization objective that carefully balances performance and robustness by incorporating Bayesian Reward Model Ensembles (BRME) to model the uncertainty set of reward functions. This allows the framework to integrate both nominal performance and minimum reward signals, ensuring more stable learning even with imperfect RMs. Empirical results demonstrate that our framework consistently outperforms baselines across diverse benchmarks, showing improved accuracy and long-term stability. We also provide a theoretical analysis, demonstrating that reward-robust RLHF approaches the stability of constant reward settings, which proves to be acceptable even in a stochastic-case analysis. Together, these contributions highlight the framework potential to enhance both the performance and stability of LLM alignment.
翻訳日:2024-11-06 19:43:38 公開日:2024-10-16
# LLMにおけるReward-Robust RLHF

Reward-Robust RLHF in LLMs ( http://arxiv.org/abs/2409.15360v3 )

ライセンス: Link先を確認
Yuzi Yan, Xingzhou Lou, Jialian Li, Yiping Zhang, Jian Xie, Chao Yu, Yu Wang, Dong Yan, Yuan Shen, (参考訳) 大規模言語モデル(LLM)がより高度なインテリジェンスへと進化し続けるにつれ、人間フィードバックからの強化学習(RLHF)は、人工知能(AGI)を実現するための重要な経路としてますます見なされている。 しかし、報酬モデルに基づくアライメント手法への依存は、リワードモデル(RM)の本質的な不安定性と不完全性のために重大な課題をもたらし、報酬のハッキングや人間の意図の不一致といった重大な問題を引き起こす可能性がある。 本稿では、これらの基本的な課題に対処し、LLMにおけるより信頼性が高く弾力性のある学習の道を開くことを目的とした報奨ロバストなRLHFフレームワークを提案する。 提案手法では,不確実な報酬関数の集合をモデル化するためにベイジアン・リワード・モデル・アンサンブル(BRME)を組み込むことにより,性能とロバスト性を慎重にバランスさせる新しい最適化手法を提案する。 これにより、フレームワークは名目上のパフォーマンスと最小報酬のシグナルを統合でき、不完全なRMでもより安定した学習を保証できる。 実験の結果、我々のフレームワークは様々なベンチマークで一貫してベースラインを上回り、精度と長期的な安定性が向上していることが示された。 また,RLHFが一定の報酬設定の安定性に近づき,確率解析においても許容できることを示す理論解析を行った。 これらのコントリビューションは、LLMアライメントの性能と安定性を両立させるフレームワークの可能性を強調している。

As Large Language Models (LLMs) continue to progress toward more advanced forms of intelligence, Reinforcement Learning from Human Feedback (RLHF) is increasingly seen as a key pathway toward achieving Artificial General Intelligence (AGI). However, the reliance on reward-model-based (RM-based) alignment methods introduces significant challenges due to the inherent instability and imperfections of Reward Models (RMs), which can lead to critical issues such as reward hacking and misalignment with human intentions. In this paper, we introduce a reward-robust RLHF framework aimed at addressing these fundamental challenges, paving the way for more reliable and resilient learning in LLMs. Our approach introduces a novel optimization objective that carefully balances performance and robustness by incorporating Bayesian Reward Model Ensembles (BRME) to model the uncertainty set of reward functions. This allows the framework to integrate both nominal performance and minimum reward signals, ensuring more stable learning even with imperfect RMs. Empirical results demonstrate that our framework consistently outperforms baselines across diverse benchmarks, showing improved accuracy and long-term stability. We also provide a theoretical analysis, demonstrating that reward-robust RLHF approaches the stability of constant reward settings, which proves to be acceptable even in a stochastic-case analysis. Together, these contributions highlight the framework potential to enhance both the performance and stability of LLM alignment.
翻訳日:2024-11-06 19:43:38 公開日:2024-10-16
# AI研究エージェントによる交通モデル強化の自動化

Automating Traffic Model Enhancement with AI Research Agent ( http://arxiv.org/abs/2409.16876v2 )

ライセンス: Link先を確認
Xusen Guo, Xinxi Yang, Mingxing Peng, Hongliang Lu, Meixin Zhu, Hai Yang, (参考訳) 効率的な交通モデルの開発は輸送システムの最適化に不可欠であるが、現在のアプローチは手動のプロセスに依存しているため、時間集約的であり、ヒューマンエラーの影響を受けやすいままである。 従来のワークフローには、徹底的な文献レビュー、公式最適化、反復的なテストが含まれており、研究の非効率性につながっている。 これに対し,交通研究エージェント (Traffic Research Agent, TR-Agent) を導入し, 繰り返しクローズドループプロセスを通じて交通モデルを自律的に開発・洗練するAI駆動システムを提案する。 具体的には、研究パイプラインをアイデア生成、理論定式化、理論評価、反復最適化の4つの重要な段階に分割し、4つのモジュール(アイデア生成、コード生成、評価器、分析器)でTR-Agentを構築する。 シナジーで作業することで、これらのモジュールは外部リソースから知識を取得し、新しいアイデアを生成し、モデルを実装し、デバッグし、最終的に評価データセットで評価する。 さらに,反復的フィードバックに基づくモデルの改良,研究効率の向上,モデル性能の向上を連続的に行う。 実験により、TR-Agentは、車追従車用インテリジェントドライバモデル(IDM)、MOBILレーン切替モデル、ライトヒル・ウィッサム・リッズ(LWR)トラヒックフローモデル(LWR)など、複数の交通モデルにおいて、大幅な性能改善を実現していることが示された。 さらに、TR-Agentは最適化の詳細な説明を提供しており、研究者はその改善を検証し、容易に構築することができる。 この柔軟性により、このフレームワークは、輸送およびそれ以上の研究者にとって強力なツールとなる。 研究とコラボレーションをさらに支援するため、我々は実験で使用されるコードとデータの両方をオープンソース化し、幅広いアクセスを容易にし、この分野における継続的な進歩を可能にしました。

Developing efficient traffic models is essential for optimizing transportation systems, yet current approaches remain time-intensive and susceptible to human errors due to their reliance on manual processes. Traditional workflows involve exhaustive literature reviews, formula optimization, and iterative testing, leading to inefficiencies in research. In response, we introduce the Traffic Research Agent (TR-Agent), an AI-driven system designed to autonomously develop and refine traffic models through an iterative, closed-loop process. Specifically, we divide the research pipeline into four key stages: idea generation, theory formulation, theory evaluation, and iterative optimization; and construct TR-Agent with four corresponding modules: Idea Generator, Code Generator, Evaluator, and Analyzer. Working in synergy, these modules retrieve knowledge from external resources, generate novel ideas, implement and debug models, and finally assess them on the evaluation datasets. Furthermore, the system continuously refines these models based on iterative feedback, enhancing research efficiency and model performance. Experimental results demonstrate that TR-Agent achieves significant performance improvements across multiple traffic models, including the Intelligent Driver Model (IDM) for car following, the MOBIL lane-changing model, and the Lighthill-Whitham-Richards (LWR) traffic flow model. Additionally, TR-Agent provides detailed explanations for its optimizations, allowing researchers to verify and build upon its improvements easily. This flexibility makes the framework a powerful tool for researchers in transportation and beyond. To further support research and collaboration, we have open-sourced both the code and data used in our experiments, facilitating broader access and enabling continued advancements in the field.
翻訳日:2024-11-06 17:10:14 公開日:2024-10-16
# エッジコンピューティングにおけるマルチタスクシステムのための深層強化学習を用いたDVFSによるエネルギー効率の高い計算

Energy-Efficient Computation with DVFS using Deep Reinforcement Learning for Multi-Task Systems in Edge Computing ( http://arxiv.org/abs/2409.19434v1 )

ライセンス: Link先を確認
Xinyi Li, Ti Zhou, Haoyu Wang, Man Lin, (参考訳) 周期的なソフトリアルタイムシステムは、IoTなど多くの領域で幅広いアプリケーションを提供している。 タスクの期限を満たしながら、基盤となるエッジデバイスに適応可能な最適エネルギー効率ポリシーを見つけることは、常に困難である。 本研究は、省エネのための強化学習に基づくDVFSを用いたマルチタスク、マルチデッドラインシナリオを備えた一般化システムについて研究する。 この研究は、周期的なシステムを単一のタスクと単一デッドラインのシナリオとしてモデル化する以前の作業の制限に対処する。 この方法は、Linuxカーネル内の時系列情報を強化学習に容易に利用できる情報にエンコードし、一般的なワークロードに基づいてシステムパターンを適応するためのDVFSポリシーを生成する。 符号化には2つの異なる比較方法を提案する。 どちらのメソッドも1つのパフォーマンスカウンタしか使用せず、システム利用とカーネルはユーザ空間からの最小限の情報しか必要としない。 本手法はJetson Nano Board (2GB) 上に実装され,3タスク,5タスク,8タスクの3つの固定マルチタスクワークロードでテストされる。 また、ランダム性と一般化のために、テスト用の異なるマルチタスクワークロードを構築するために、ランダムなワークロードジェネレータを設計した。 テスト結果から,Linuxの組込み知事と比較して3%~10%の省電力化が可能であった。

Periodic soft real-time systems have broad applications in many areas, such as IoT. Finding an optimal energy-efficient policy that is adaptable to underlying edge devices while meeting deadlines for tasks has always been challenging. This research studies generalized systems with multi-task, multi-deadline scenarios with reinforcement learning-based DVFS for energy saving. This work addresses the limitation of previous work that models a periodic system as a single task and single-deadline scenario, which is too simplified to cope with complex situations. The method encodes time series information in the Linux kernel into information that is easy to use for reinforcement learning, allowing the system to generate DVFS policies to adapt system patterns based on the general workload. For encoding, we present two different methods for comparison. Both methods use only one performance counter: system utilization and the kernel only needs minimal information from the userspace. Our method is implemented on Jetson Nano Board (2GB) and is tested with three fixed multitask workloads, which are three, five, and eight tasks in the workload, respectively. For randomness and generalization, we also designed a random workload generator to build different multitask workloads to test. Based on the test results, our method could save 3%-10% power compared to Linux built-in governors.
翻訳日:2024-11-05 23:19:24 公開日:2024-10-16
# エッジコンピューティングにおけるマルチタスクシステムのための深層強化学習を用いたDVFSによるエネルギー効率の高い計算

Energy-Efficient Computation with DVFS using Deep Reinforcement Learning for Multi-Task Systems in Edge Computing ( http://arxiv.org/abs/2409.19434v2 )

ライセンス: Link先を確認
Xinyi Li, Ti Zhou, Haoyu Wang, Man Lin, (参考訳) 周期的なソフトリアルタイムシステムは、IoTなど多くの領域で幅広いアプリケーションを提供している。 タスクの期限を満たしながら、基盤となるエッジデバイスに適応可能な最適エネルギー効率ポリシーを見つけることは、常に困難である。 本研究は、省エネのための強化学習に基づくDVFSを用いたマルチタスク、マルチデッドラインシナリオを備えた一般化システムについて研究する。 この研究は、周期的なシステムを単一のタスクと単一デッドラインのシナリオとしてモデル化する以前の作業の制限に対処する。 この方法は、Linuxカーネル内の時系列情報を強化学習に容易に利用できる情報にエンコードし、一般的なワークロードに基づいてシステムパターンを適応するためのDVFSポリシーを生成する。 符号化には2つの異なる比較方法を提案する。 どちらのメソッドも1つのパフォーマンスカウンタしか使用せず、システム利用とカーネルはユーザ空間からの最小限の情報しか必要としない。 本手法はJetson Nano Board (2GB) 上に実装され,3タスク,5タスク,8タスクの3つの固定マルチタスクワークロードでテストされる。 また、ランダム性と一般化のために、テスト用の異なるマルチタスクワークロードを構築するために、ランダムなワークロードジェネレータを設計した。 テスト結果から,Linuxの組込み知事と比較して3%~10%の省電力化が可能であった。

Periodic soft real-time systems have broad applications in many areas, such as IoT. Finding an optimal energy-efficient policy that is adaptable to underlying edge devices while meeting deadlines for tasks has always been challenging. This research studies generalized systems with multi-task, multi-deadline scenarios with reinforcement learning-based DVFS for energy saving. This work addresses the limitation of previous work that models a periodic system as a single task and single-deadline scenario, which is too simplified to cope with complex situations. The method encodes time series information in the Linux kernel into information that is easy to use for reinforcement learning, allowing the system to generate DVFS policies to adapt system patterns based on the general workload. For encoding, we present two different methods for comparison. Both methods use only one performance counter: system utilization and the kernel only needs minimal information from the userspace. Our method is implemented on Jetson Nano Board (2GB) and is tested with three fixed multitask workloads, which are three, five, and eight tasks in the workload, respectively. For randomness and generalization, we also designed a random workload generator to build different multitask workloads to test. Based on the test results, our method could save 3%-10% power compared to Linux built-in governors.
翻訳日:2024-11-05 23:19:24 公開日:2024-10-16
# タスク駆動表現による散在するSinglish談話粒子

Disentangling Singlish Discourse Particles with Task-Driven Representation ( http://arxiv.org/abs/2409.20366v2 )

ライセンス: Link先を確認
Linus Tze En Foo, Lynnette Hui Xian Ng, (参考訳) シングリッシュ(英語: Singlish、正式にはコロキール・シンガポール英語)は、南東アジアのシンガポールを起源とするクレオール語である。 この言語は、中国語の方言、マレー語、タミル語などのシナ語の影響を受けている。 シングリッシュを理解するための基本的な課題は、まずその言説粒子の実用的機能を理解することである。 この研究は、Singlishの談話粒子(lah, meh, hor)をタスク駆動表現学習で解き放つための予備的な努力を提供する。 解離後、これらの談話粒子をクラスタリングし、実効性を識別し、Singlish-to- English 機械翻訳を行う。 我々の研究は、Singlishの談話粒子を理解するための計算方法を提供し、言語とその使用法をより深く理解するための道を開く。

Singlish, or formally Colloquial Singapore English, is an English-based creole language originating from the SouthEast Asian country Singapore. The language contains influences from Sinitic languages such as Chinese dialects, Malay, Tamil and so forth. A fundamental task to understanding Singlish is to first understand the pragmatic functions of its discourse particles, upon which Singlish relies heavily to convey meaning. This work offers a preliminary effort to disentangle the Singlish discourse particles (lah, meh and hor) with task-driven representation learning. After disentanglement, we cluster these discourse particles to differentiate their pragmatic functions, and perform Singlish-to-English machine translation. Our work provides a computational method to understanding Singlish discourse particles, and opens avenues towards a deeper comprehension of the language and its usage.
翻訳日:2024-11-05 15:48:47 公開日:2024-10-16
# タスク駆動表現による散在するSinglish談話粒子

Disentangling Singlish Discourse Particles with Task-Driven Representation ( http://arxiv.org/abs/2409.20366v3 )

ライセンス: Link先を確認
Linus Tze En Foo, Lynnette Hui Xian Ng, Peter Bell, (参考訳) シングリッシュ(英語: Singlish、正式にはコロキール・シンガポール英語)は、南東アジアのシンガポールを起源とするクレオール語である。 この言語は、中国語の方言、マレー語、タミル語などのシナ語の影響を受けている。 シングリッシュを理解するための基本的な課題は、まずその言説粒子の実用的機能を理解することである。 この研究は、Singlishの談話粒子(lah, meh, hor)をタスク駆動表現学習で解き放つための予備的な努力を提供する。 解離後、これらの談話粒子をクラスタリングし、実効性を識別し、Singlish-to- English 機械翻訳を行う。 我々の研究は、Singlishの談話粒子を理解するための計算方法を提供し、言語とその使用法をより深く理解するための道を開く。

Singlish, or formally Colloquial Singapore English, is an English-based creole language originating from the SouthEast Asian country Singapore. The language contains influences from Sinitic languages such as Chinese dialects, Malay, Tamil and so forth. A fundamental task to understanding Singlish is to first understand the pragmatic functions of its discourse particles, upon which Singlish relies heavily to convey meaning. This work offers a preliminary effort to disentangle the Singlish discourse particles (lah, meh and hor) with task-driven representation learning. After disentanglement, we cluster these discourse particles to differentiate their pragmatic functions, and perform Singlish-to-English machine translation. Our work provides a computational method to understanding Singlish discourse particles, and opens avenues towards a deeper comprehension of the language and its usage.
翻訳日:2024-11-05 15:48:47 公開日:2024-10-16
# タスク駆動表現による散在するSinglish談話粒子

Disentangling Singlish Discourse Particles with Task-Driven Representation ( http://arxiv.org/abs/2409.20366v4 )

ライセンス: Link先を確認
Linus Tze En Foo, Lynnette Hui Xian Ng, (参考訳) シングリッシュ(英語: Singlish、正式にはコロキール・シンガポール英語)は、南東アジアのシンガポールを起源とするクレオール語である。 この言語は、中国語の方言、マレー語、タミル語などのシナ語の影響を受けている。 シングリッシュを理解するための基本的な課題は、まずその言説粒子の実用的機能を理解することである。 この研究は、Singlishの談話粒子(lah, meh, hor)をタスク駆動表現学習で解き放つための予備的な努力を提供する。 解離後、これらの談話粒子をクラスタリングし、実効性を識別し、Singlish-to- English 機械翻訳を行う。 我々の研究は、Singlishの談話粒子を理解するための計算方法を提供し、言語とその使用法をより深く理解するための道を開く。

Singlish, or formally Colloquial Singapore English, is an English-based creole language originating from the SouthEast Asian country Singapore. The language contains influences from Sinitic languages such as Chinese dialects, Malay, Tamil and so forth. A fundamental task to understanding Singlish is to first understand the pragmatic functions of its discourse particles, upon which Singlish relies heavily to convey meaning. This work offers a preliminary effort to disentangle the Singlish discourse particles (lah, meh and hor) with task-driven representation learning. After disentanglement, we cluster these discourse particles to differentiate their pragmatic functions, and perform Singlish-to-English machine translation. Our work provides a computational method to understanding Singlish discourse particles, and opens avenues towards a deeper comprehension of the language and its usage.
翻訳日:2024-11-05 15:48:47 公開日:2024-10-16
# ソーシャルメディア画像の教師なし分類のための大規模ユニモーダルモデルとマルチモーダルモデルについて : 自然の人間への貢献を事例として

On Large Uni- and Multi-modal Models for Unsupervised Classification of Social Media Images: Nature's Contribution to People as case study ( http://arxiv.org/abs/2410.00275v1 )

ライセンス: Link先を確認
Rohaifa Khaldi, Domingo Alcaraz-Segura, Ignacio Sánchez-Herrera, Javier Martinez-Lopez, Carlos Javier Navarro, Siham Tabik, (参考訳) ソーシャルメディア画像は、文化遺産、生物多様性、自然などといった重要なテーマとの人間の相互作用を理解する上で、貴重な情報源であることが示されている。 このような画像をラベルなしで意味論的に意味のある多くのクラスタに分類する作業は、その膨大な量に加えて、これらの画像の視覚的内容の多様性と複雑な性質を考えると困難である。 一方、LVM(Large Visual Models)、LLM(Large Language Models)、LVLM(Large Visual Language Models)における最後の進歩は、新しい生産的でスケーラブルなソリューションを探求する重要な機会を提供する。 この研究は、ソーシャルメディアイメージを予め定義された多くのクラスにマッピングするための、1つ以上の最先端のLVM、LLM、LVLMに基づく様々なアプローチを提案し、分析し、比較する。 本研究では,人間と自然の相互作用を理解することの問題点について考察する。 我々の実験によると、競争力の高い結果をもたらすトップパフォーマンスのアプローチは、小さなラベル付きデータセット上で微調整されたLVM DINOv2であり、単純なプロンプトを使ってプロプライエタリなGPT-4(gpt-4o-mini)のようなLVLMモデルである。

Social media images have shown to be a valuable source of information for understanding human interactions with important subjects such as cultural heritage, biodiversity and nature among others. The task of grouping such images into a number of semantically meaningful clusters without labels is challenging given the high diversity and complex nature of the visual content of these images in addition to their large volume. On the other hand, the last advances in Large Visual Models (LVM), Large Language Models (LLM) and Large Visual Language Models (LVLM) provide an important opportunity to explore new productive and scalable solutions. This works proposes, analyzes, and compares various approaches based on one or more state-of-the art LVM, LLM and LVLM, for mapping social media images into a number of pre-defined classes. As case study, we consider the problem of understanding the interactions between human and nature, also known as Nature's Contribution to People or Cultural Ecosystem Services (CES). Our experiments reveal that the top-performing approaches, delivering highly competitive results, are the fine-tuned LVM DINOv2 on a small labeled dataset and LVLM models like the proprietary GPT-4 (gpt-4o-mini) using a simple prompt.
翻訳日:2024-11-05 06:35:59 公開日:2024-10-16
# ソーシャルメディア画像の教師なし分類のための大規模ユニモーダルモデルとマルチモーダルモデルについて : 自然の人間への貢献を事例として

On Large Uni- and Multi-modal Models for Unsupervised Classification of Social Media Images: Nature's Contribution to People as a case study ( http://arxiv.org/abs/2410.00275v2 )

ライセンス: Link先を確認
Rohaifa Khaldi, Domingo Alcaraz-Segura, Ignacio Sánchez-Herrera, Javier Martinez-Lopez, Carlos Javier Navarro, Siham Tabik, (参考訳) ソーシャルメディア画像は、文化遺産、生物多様性、自然などといった重要なテーマとの人間の相互作用を理解するための貴重な情報源であることが証明されている。 このようなイメージをラベルのない意味論的意味のある複数のクラスタに分類する作業は、その膨大な量に加えて、視覚的内容の多様性と複雑な性質のために困難である。 一方、LVM(Large Visual Models)、LLM(Large Language Models)、LVLM(Large Visual Language Models)の最近の進歩は、新しい生産的でスケーラブルなソリューションを探求する重要な機会を提供する。 本研究は、ソーシャルメディアイメージを予め定義されたクラスにマッピングするための、最先端のLVM、LLM、LVLMに基づく様々なアプローチを提案し、分析し、比較する。 本研究では,人間と自然の相互作用を理解することの問題点を考察する。 我々の実験によると、95%以上の精度で高い性能のアプローチでは、まだ小さなラベル付きデータセットを作成する必要がある。 LVM DINOv2 と LVLM LLaVA-1.5 と微調整 LLM が組み合わされた。 84%以上の精度を達成している最上位の完全教師なしのアプローチは、LVLM、特にプロプライエタリなGPT-4モデルとパブリックなLLaVA-1.5モデルである。 さらに、LVM DINOv2は10ショットの学習設定で適用され、83.99%の精度で競争結果を提供し、LVLM LLaVA-1.5の性能と密接に一致した。

Social media images have proven to be a valuable source of information for understanding human interactions with important subjects such as cultural heritage, biodiversity, and nature, among others. The task of grouping such images into a number of semantically meaningful clusters without labels is challenging due to the high diversity and complex nature of the visual content in addition to their large volume. On the other hand, recent advances in Large Visual Models (LVMs), Large Language Models (LLMs), and Large Visual Language Models (LVLMs) provide an important opportunity to explore new productive and scalable solutions. This work proposes, analyzes, and compares various approaches based on one or more state-of-the-art LVM, LLM, and LVLM, for mapping social media images into a number of predefined classes. As a case study, we consider the problem of understanding the interactions between humans and nature, also known as Nature's Contribution to People or Cultural Ecosystem Services (CES). Our experiments show that the highest-performing approaches, with accuracy above 95%, still require the creation of a small labeled dataset. These include the fine-tuned LVM DINOv2 and the LVLM LLaVA-1.5 combined with a fine-tuned LLM. The top fully unsupervised approaches, achieving accuracy above 84%, are the LVLMs, specifically the proprietary GPT-4 model and the public LLaVA-1.5 model. Additionally, the LVM DINOv2, when applied in a 10-shot learning setup, delivered competitive results with an accuracy of 83.99%, closely matching the performance of the LVLM LLaVA-1.5.
翻訳日:2024-11-05 06:35:59 公開日:2024-10-16
# 極端に分散したマイクロ波キャビティ共振器によるアハロノフ・ボーム効果の実験

Microwave Cavity Resonator with Extreme Dispersion to Enable a Test of the Electric-Scalar Aharonov-Bohm Effect ( http://arxiv.org/abs/2410.01333v1 )

ライセンス: Link先を確認
Michael Hatzon, Graeme Flower, Maxim Goryachev, Jeremy Bourhill, Michael E. Tobar, (参考訳) TM$_{0,1,0}$モードで動作する円筒型マイクロ波空洞共振器は、共振器を駆動する2つの干渉計アームの位相と振幅を調整することにより、共振器内の電界と電位の操作を可能にする干渉計構成を用いて励起された。 位相と振幅を正確に調整することにより、共振周波数での電界の25dB抑制を実現し、同時に時変電位の振幅を共鳴的に増強した。 これらの平衡条件下では、共振周波数における反共鳴の導入により、空洞応答が極端に分散していることが示される。 この現象は電磁誘導された透過性に似た現象を生じさせ、キャビティ相の応答は桁違いに増大する。 この研究は、電場や磁気ベクトルポテンシャルを伴わない時間変化の電気-スカラーポテンシャルを含む条件下で、電気-スカラーアハロノフ-ボーム効果を試験できる機能を備えた実験装置を提示するが、まだ実現されていない実験である。

A cylindrical microwave cavity resonator operating in the TM$_{0,1,0}$ mode was excited using an interferometric configuration that allowed manipulation of the electric field and potential within the resonator by adjusting the phase and amplitude in the two interferometer arms driving the resonator. With precise tuning of the phase and amplitude, 25 dB suppression of the electric field at the resonance frequency was achieved while simultaneously resonantly enhancing the amplitude of the time-varying electric-scalar potential. Under these balanced conditions, the system demonstrated extreme dispersion in the cavity response due to the introduction of an anti-resonance at the resonance frequency. This creates a phenomenon similar to electromagnetically induced transparency, leading to an increase in the cavity phase response by an order of magnitude. This work presents an experimental setup with the features that will allow the electric-scalar Aharonov-Bohm effect to be tested under conditions involving a time-varying electric-scalar potential, without the presence of an electric field or magnetic vector potential, an experiment that has not yet been realised.
翻訳日:2024-11-04 21:49:06 公開日:2024-10-16
# 電磁波誘起吸収を用いたマイクロ波キャビティ共振器によるアハロノフ・ボーム効果の試験

Microwave Cavity Resonator with Electromagnetic Induced Absorption to Enable a Test of the Electric-Scalar Aharonov-Bohm Effect ( http://arxiv.org/abs/2410.01333v2 )

ライセンス: Link先を確認
Michael Hatzon, Graeme Flower, Maxim Goryachev, Jeremy Bourhill, Michael E. Tobar, (参考訳) TM$_{0,1,0}$モードで動作する円筒型マイクロ波空洞共振器は、共振器を駆動する2つの干渉計アームの位相と振幅を調整することにより、共振器内の電界と電位の操作を可能にする干渉計構成を用いて励起された。 位相と振幅を正確に調整することにより、共振周波数での電界の25dB抑制を実現し、同時に時変電位の振幅を共鳴的に増強した。 これらの平衡条件下では、共振周波数での電場減衰による共振器応答の電磁誘導吸収が示された。 この現象は極端に分散した形態と見なすことができ、測定されたキャビティ相の応答は桁違いに増大した。 この研究は、電場や磁気ベクトルポテンシャルを伴わない時間変化の電気-スカラーポテンシャルを含む条件下で、電気-スカラーアハロノフ-ボーム効果を試験できる機能を備えた実験装置を提示するが、まだ実現されていない実験である。

A cylindrical microwave cavity resonator operating in the TM$_{0,1,0}$ mode was excited using an interferometric configuration that allowed manipulation of the electric field and potential within the resonator by adjusting the phase and amplitude in the two interferometer arms driving the resonator. With precise tuning of the phase and amplitude, 25 dB suppression of the electric field at the resonance frequency was achieved while simultaneously resonantly enhancing the amplitude of the time-varying electric-scalar potential. Under these balanced conditions, the system demonstrated electromagnetically induced absorption in the cavity response due to the annulment of the electric field at the resonance frequency. This phenomena can be regarded as a form of extreme dispersion, and led to a measured increase in the cavity phase response by an order of magnitude. This work presents an experimental setup with the features that will allow the electric-scalar Aharonov-Bohm effect to be tested under conditions involving a time-varying electric-scalar potential, without the presence of an electric field or magnetic vector potential, an experiment that has not yet been realised.
翻訳日:2024-11-04 21:49:06 公開日:2024-10-16
# FredNormer:非定常時系列予測のための周波数領域正規化

FredNormer: Frequency Domain Normalization for Non-stationary Time Series Forecasting ( http://arxiv.org/abs/2410.01860v1 )

ライセンス: Link先を確認
Xihao Piao, Zheng Chen, Yushun Dong, Yasuko Matsubara, Yasushi Sakurai, (参考訳) 最近の正規化に基づく手法は、分布シフト問題に対処し、非定常時系列予測を容易にすることに成功している。 これらの手法は時間領域で動作するため、周波数領域でより明らかな動的なパターンをフルに捕捉することができず、最適以下の結果をもたらす可能性がある。 本稿ではまず,正規化法が周波数成分に与える影響を理論的に分析する。 我々は、時間領域で動作している現在の正規化法が非ゼロ周波数を均一にスケールしていることを証明し、より堅牢な予測に寄与する成分を決定するのに苦労する。 そこで、FredNormerを提案する。これは、周波数の観点からデータセットを観察し、鍵周波数成分を適応的にアップウェイトする。 この目的のためにFredNormerは、周波数安定性に基づいて入力サンプルを正規化する統計計量と、安定性を調整しサンプル固有のバリエーションを導入する学習可能な重み付け層という2つの要素から構成される。 特にFredNormerはプラグイン・アンド・プレイモジュールであり、既存の正規化手法と比較して効率を損なわない。 大規模な実験により、FredNormerはETTm2データセットでバックボーン予測モデルの平均MSEを33.3%、55.3%改善した。 ベースラインの正規化手法と比較して、FredNormerは28設定のうち18の上位1結果と6の上位2結果を達成する。

Recent normalization-based methods have shown great success in tackling the distribution shift issue, facilitating non-stationary time series forecasting. Since these methods operate in the time domain, they may fail to fully capture the dynamic patterns that are more apparent in the frequency domain, leading to suboptimal results. This paper first theoretically analyzes how normalization methods affect frequency components. We prove that the current normalization methods that operate in the time domain uniformly scale non-zero frequencies, and thus, they struggle to determine components that contribute to more robust forecasting. Therefore, we propose FredNormer, which observes datasets from a frequency perspective and adaptively up-weights the key frequency components. To this end, FredNormer consists of two components: a statistical metric that normalizes the input samples based on their frequency stability and a learnable weighting layer that adjusts stability and introduces sample-specific variations. Notably, FredNormer is a plug-and-play module, which does not compromise the efficiency compared to existing normalization methods. Extensive experiments show that FredNormer improves the averaged MSE of backbone forecasting models by 33.3% and 55.3% on the ETTm2 dataset. Compared to the baseline normalization methods, FredNormer achieves 18 top-1 results and 6 top-2 results out of 28 settings.
翻訳日:2024-11-04 10:14:15 公開日:2024-10-16
# FredNormer:非定常時系列予測のための周波数領域正規化

FredNormer: Frequency Domain Normalization for Non-stationary Time Series Forecasting ( http://arxiv.org/abs/2410.01860v2 )

ライセンス: Link先を確認
Xihao Piao, Zheng Chen, Yushun Dong, Yasuko Matsubara, Yasushi Sakurai, (参考訳) 最近の正規化に基づく手法は、分布シフト問題に対処し、非定常時系列予測を容易にすることに成功している。 これらの手法は時間領域で動作するため、周波数領域でより明らかな動的なパターンをフルに捕捉することができず、最適以下の結果をもたらす可能性がある。 本稿ではまず,正規化法が周波数成分に与える影響を理論的に分析する。 我々は、時間領域で動作している現在の正規化法が非ゼロ周波数を均一にスケールしていることを証明し、より堅牢な予測に寄与する成分を決定するのに苦労する。 そこで、FredNormerを提案する。これは、周波数の観点からデータセットを観察し、鍵周波数成分を適応的にアップウェイトする。 この目的のためにFredNormerは、周波数安定性に基づいて入力サンプルを正規化する統計計量と、安定性を調整しサンプル固有のバリエーションを導入する学習可能な重み付け層という2つの要素から構成される。 特にFredNormerはプラグイン・アンド・プレイモジュールであり、既存の正規化手法と比較して効率を損なわない。 大規模な実験により、FredNormerはETTm2データセットでバックボーン予測モデルの平均MSEを33.3%、55.3%改善した。 ベースラインの正規化手法と比較して、FredNormerは28設定のうち18の上位1結果と6の上位2結果を達成する。

Recent normalization-based methods have shown great success in tackling the distribution shift issue, facilitating non-stationary time series forecasting. Since these methods operate in the time domain, they may fail to fully capture the dynamic patterns that are more apparent in the frequency domain, leading to suboptimal results. This paper first theoretically analyzes how normalization methods affect frequency components. We prove that the current normalization methods that operate in the time domain uniformly scale non-zero frequencies, and thus, they struggle to determine components that contribute to more robust forecasting. Therefore, we propose FredNormer, which observes datasets from a frequency perspective and adaptively up-weights the key frequency components. To this end, FredNormer consists of two components: a statistical metric that normalizes the input samples based on their frequency stability and a learnable weighting layer that adjusts stability and introduces sample-specific variations. Notably, FredNormer is a plug-and-play module, which does not compromise the efficiency compared to existing normalization methods. Extensive experiments show that FredNormer improves the averaged MSE of backbone forecasting models by 33.3% and 55.3% on the ETTm2 dataset. Compared to the baseline normalization methods, FredNormer achieves 18 top-1 results and 6 top-2 results out of 28 settings.
翻訳日:2024-11-04 10:14:15 公開日:2024-10-16
# FredNormer:非定常時系列予測のための周波数領域正規化

FredNormer: Frequency Domain Normalization for Non-stationary Time Series Forecasting ( http://arxiv.org/abs/2410.01860v3 )

ライセンス: Link先を確認
Xihao Piao, Zheng Chen, Yushun Dong, Yasuko Matsubara, Yasushi Sakurai, (参考訳) 最近の正規化に基づく手法は、分布シフト問題に対処し、非定常時系列予測を容易にすることに成功している。 これらの手法は時間領域で動作するため、周波数領域でより明らかな動的なパターンをフルに捕捉することができず、最適以下の結果をもたらす可能性がある。 本稿ではまず,正規化法が周波数成分に与える影響を理論的に分析する。 我々は、時間領域で動作している現在の正規化法が非ゼロ周波数を均一にスケールしていることを証明し、より堅牢な予測に寄与する成分を決定するのに苦労する。 そこで、FredNormerを提案する。これは、周波数の観点からデータセットを観察し、鍵周波数成分を適応的にアップウェイトする。 この目的のためにFredNormerは、周波数安定性に基づいて入力サンプルを正規化する統計計量と、安定性を調整しサンプル固有のバリエーションを導入する学習可能な重み付け層という2つの要素から構成される。 特にFredNormerはプラグイン・アンド・プレイモジュールであり、既存の正規化手法と比較して効率を損なわない。 大規模な実験により、FredNormerはETTm2データセットでバックボーン予測モデルの平均MSEを33.3%、55.3%改善した。 ベースラインの正規化手法と比較して、FredNormerは28設定のうち18の上位1結果と6の上位2結果を達成する。

Recent normalization-based methods have shown great success in tackling the distribution shift issue, facilitating non-stationary time series forecasting. Since these methods operate in the time domain, they may fail to fully capture the dynamic patterns that are more apparent in the frequency domain, leading to suboptimal results. This paper first theoretically analyzes how normalization methods affect frequency components. We prove that the current normalization methods that operate in the time domain uniformly scale non-zero frequencies, and thus, they struggle to determine components that contribute to more robust forecasting. Therefore, we propose FredNormer, which observes datasets from a frequency perspective and adaptively up-weights the key frequency components. To this end, FredNormer consists of two components: a statistical metric that normalizes the input samples based on their frequency stability and a learnable weighting layer that adjusts stability and introduces sample-specific variations. Notably, FredNormer is a plug-and-play module, which does not compromise the efficiency compared to existing normalization methods. Extensive experiments show that FredNormer improves the averaged MSE of backbone forecasting models by 33.3% and 55.3% on the ETTm2 dataset. Compared to the baseline normalization methods, FredNormer achieves 18 top-1 results and 6 top-2 results out of 28 settings.
翻訳日:2024-11-04 10:14:15 公開日:2024-10-16
# FredNormer:非定常時系列予測のための周波数領域正規化

FredNormer: Frequency Domain Normalization for Non-stationary Time Series Forecasting ( http://arxiv.org/abs/2410.01860v4 )

ライセンス: Link先を確認
Xihao Piao, Zheng Chen, Yushun Dong, Yasuko Matsubara, Yasushi Sakurai, (参考訳) 最近の正規化に基づく手法は、分布シフト問題に対処し、非定常時系列予測を容易にすることに成功している。 これらの手法は時間領域で動作するため、周波数領域でより明らかな動的なパターンをフルに捕捉することができず、最適以下の結果をもたらす可能性がある。 本稿ではまず,正規化法が周波数成分に与える影響を理論的に分析する。 我々は、時間領域で動作している現在の正規化法が非ゼロ周波数を均一にスケールしていることを証明し、より堅牢な予測に寄与する成分を決定するのに苦労する。 そこで、FredNormerを提案する。これは、周波数の観点からデータセットを観察し、鍵周波数成分を適応的にアップウェイトする。 この目的のためにFredNormerは、周波数安定性に基づいて入力サンプルを正規化する統計計量と、安定性を調整しサンプル固有のバリエーションを導入する学習可能な重み付け層という2つの要素から構成される。 特にFredNormerはプラグイン・アンド・プレイモジュールであり、既存の正規化手法と比較して効率を損なわない。 大規模な実験により、FredNormerはETTm2データセットでバックボーン予測モデルの平均MSEを33.3%、55.3%改善した。 ベースラインの正規化手法と比較して、FredNormerは28設定のうち18の上位1結果と6の上位2結果を達成する。

Recent normalization-based methods have shown great success in tackling the distribution shift issue, facilitating non-stationary time series forecasting. Since these methods operate in the time domain, they may fail to fully capture the dynamic patterns that are more apparent in the frequency domain, leading to suboptimal results. This paper first theoretically analyzes how normalization methods affect frequency components. We prove that the current normalization methods that operate in the time domain uniformly scale non-zero frequencies, and thus, they struggle to determine components that contribute to more robust forecasting. Therefore, we propose FredNormer, which observes datasets from a frequency perspective and adaptively up-weights the key frequency components. To this end, FredNormer consists of two components: a statistical metric that normalizes the input samples based on their frequency stability and a learnable weighting layer that adjusts stability and introduces sample-specific variations. Notably, FredNormer is a plug-and-play module, which does not compromise the efficiency compared to existing normalization methods. Extensive experiments show that FredNormer improves the averaged MSE of backbone forecasting models by 33.3% and 55.3% on the ETTm2 dataset. Compared to the baseline normalization methods, FredNormer achieves 18 top-1 results and 6 top-2 results out of 28 settings.
翻訳日:2024-11-04 10:14:15 公開日:2024-10-16
# 透明SNS弱リンクの非線形性は長さとともに急激に減少する

Nonlinearity of transparent SNS weak links decreases sharply with length ( http://arxiv.org/abs/2410.01913v1 )

ライセンス: Link先を確認
Valla Fatemi, Pavel D. Kurilovich, Anton R. Akhmerov, Bernard van Heck, (参考訳) 超伝導-正規物質超伝導体(SNS)接合は、基礎および応用研究目標のためにマイクロ波回路に統合されている。 ショートジャンクション制限はSNSジャンクションの実験を単純化する一般的な仮定であるが、この制限はマイクロ波回路の非線形性がいかに小さいかに制約を与える。 ここでは、弱リンクの有限長が、その0長の限界よりも非線形性を強く抑制することを示し、この抑制は、誘導されたコヒーレンス長よりも長さが短い場合でも最大10倍になる。 我々はこの挙動を、臨界電流が示さない長さに対する非線形性の非解析的依存性に結びつける。 さらに、非ゼロ長の観測可能な追加の結果を同定し、時間反転対称性の存在下での任意の非相互作用ジョセフソン接合に対して、非調和性はゼロと最大負の値の間に有界であると予想する。 我々は、弱い非線形マイクロ波回路を設計するための有用なパラメータとしてSNS接合長を推奨する。

Superconductor-normal material-superconductor (SNS) junctions are being integrated into microwave circuits for fundamental and applied research goals. The short junction limit is a common simplifying assumption for experiments with SNS junctions, but this limit constrains how small the nonlinearity of the microwave circuit can be. Here, we show that a finite length of the weak link strongly suppresses the nonlinearity compared to its zero-length limit -- the suppression can be up to a factor of ten even when the length remains shorter than the induced coherence length. We tie this behavior to the nonanalytic dependence of nonlinearity on length, which the critical current does not exhibit. Further, we identify additional experimentally observable consequences of nonzero length, and we conjecture that anharmonicity is bounded between zero and a maximally negative value for any non-interacting Josephson junction in the presence of time-reversal symmetry. We promote SNS junction length as a useful parameter for designing weakly nonlinear microwave circuits.
翻訳日:2024-11-04 10:04:30 公開日:2024-10-16
# 透明SNS弱リンクの非線形性は長さとともに急激に減少する

Nonlinearity of transparent SNS weak links decreases sharply with length ( http://arxiv.org/abs/2410.01913v2 )

ライセンス: Link先を確認
Valla Fatemi, Pavel D. Kurilovich, Anton R. Akhmerov, Bernard van Heck, (参考訳) 超伝導-正規物質超伝導体(SNS)接合は、基礎および応用研究目標のためにマイクロ波回路に統合されている。 ショートジャンクション制限はSNSジャンクションの実験を単純化する一般的な仮定であるが、この制限はマイクロ波回路の非線形性がいかに小さいかに制約を与える。 ここでは、弱リンクの有限長が、その0長の限界よりも非線形性を強く抑制することを示し、この抑制は、誘導されたコヒーレンス長よりも長さが短い場合でも最大10倍になる。 我々はこの挙動を、臨界電流が示さない長さに対する非線形性の非解析的依存性に結びつける。 さらに、非ゼロ長の観測可能な追加の結果を同定し、時間反転対称性の存在下での任意の非相互作用ジョセフソン接合に対して、非調和性はゼロと最大負の値の間に有界であると予想する。 我々は、弱い非線形マイクロ波回路を設計するための有用なパラメータとしてSNS接合長を推奨する。

Superconductor-normal material-superconductor (SNS) junctions are being integrated into microwave circuits for fundamental and applied research goals. The short junction limit is a common simplifying assumption for experiments with SNS junctions, but this limit constrains how small the nonlinearity of the microwave circuit can be. Here, we show that a finite length of the weak link strongly suppresses the nonlinearity compared to its zero-length limit -- the suppression can be up to a factor of ten even when the length remains shorter than the induced coherence length. We tie this behavior to the nonanalytic dependence of nonlinearity on length, which the critical current does not exhibit. Further, we identify additional experimentally observable consequences of nonzero length, and we conjecture that anharmonicity is bounded between zero and a maximally negative value for any non-interacting Josephson junction in the presence of time-reversal symmetry. We promote SNS junction length as a useful parameter for designing weakly nonlinear microwave circuits.
翻訳日:2024-11-04 10:04:30 公開日:2024-10-16
# EmbedLLM: 大規模言語モデルのコンパクト表現を学習する

EmbedLLM: Learning Compact Representations of Large Language Models ( http://arxiv.org/abs/2410.02223v1 )

ライセンス: Link先を確認
Richard Zhuang, Tianhao Wu, Zhaojin Wen, Andrew Li, Jiantao Jiao, Kannan Ramchandran, (参考訳) Huggingfaceには現在何十万もの言語モデルがあり、様々な下流でこれらのモデルを効率的に評価し活用しているため、タスクはますます重要になっている。 既存の多くの手法は、Large Language Models (LLM) のタスク固有表現を繰り返し学習し、時間と計算資源の双方において非効率性をもたらす。 そこで本研究では,LLMのコンパクトなベクトル表現を学習するためのフレームワークであるEmbedLLMを提案する。 このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。 EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。 さらに,提案手法は,追加の推論コストを発生させることなく,複数のベンチマークでモデルの性能を予測できることを実証する。 広範囲にわたる探索実験は、学習した埋め込みが、例えば、モデルがコーディングタスクに特化しているかどうか、たとえ明示的に訓練されていなくても、キーモデルの特徴を捉えていることを検証する。 私たちは、さらなる研究とアプリケーションを容易にするために、データセット、コード、埋め込み器をオープンソースにしています。

With hundreds of thousands of language models available on Huggingface today, efficiently evaluating and utilizing these models across various downstream, tasks has become increasingly critical. Many existing methods repeatedly learn task-specific representations of Large Language Models (LLMs), which leads to inefficiencies in both time and computational resources. To address this, we propose EmbedLLM, a framework designed to learn compact vector representations, of LLMs that facilitate downstream applications involving many models, such as model routing. We introduce an encoder-decoder approach for learning such embeddings, along with a systematic framework to evaluate their effectiveness. Empirical results show that EmbedLLM outperforms prior methods in model routing both in accuracy and latency. Additionally, we demonstrate that our method can forecast a model's performance on multiple benchmarks, without incurring additional inference cost. Extensive probing experiments validate that the learned embeddings capture key model characteristics, e.g. whether the model is specialized for coding tasks, even without being explicitly trained on them. We open source our dataset, code and embedder to facilitate further research and application.
翻訳日:2024-11-04 07:55:57 公開日:2024-10-16
# EmbedLLM: 大規模言語モデルのコンパクト表現を学習する

EmbedLLM: Learning Compact Representations of Large Language Models ( http://arxiv.org/abs/2410.02223v2 )

ライセンス: Link先を確認
Richard Zhuang, Tianhao Wu, Zhaojin Wen, Andrew Li, Jiantao Jiao, Kannan Ramchandran, (参考訳) Huggingfaceには現在何十万もの言語モデルがあり、様々な下流でこれらのモデルを効率的に評価し活用しているため、タスクはますます重要になっている。 既存の多くの手法は、Large Language Models (LLM) のタスク固有表現を繰り返し学習し、時間と計算資源の双方において非効率性をもたらす。 そこで本研究では,LLMのコンパクトなベクトル表現を学習するためのフレームワークであるEmbedLLMを提案する。 このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。 EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。 さらに,提案手法は,追加の推論コストを発生させることなく,複数のベンチマークでモデルの性能を予測できることを実証する。 広範囲にわたる探索実験は、学習した埋め込みが、例えば、モデルがコーディングタスクに特化しているかどうか、たとえ明示的に訓練されていなくても、キーモデルの特徴を捉えていることを検証する。 私たちは、さらなる研究とアプリケーションを容易にするために、データセット、コード、埋め込み器をオープンソースにしています。

With hundreds of thousands of language models available on Huggingface today, efficiently evaluating and utilizing these models across various downstream, tasks has become increasingly critical. Many existing methods repeatedly learn task-specific representations of Large Language Models (LLMs), which leads to inefficiencies in both time and computational resources. To address this, we propose EmbedLLM, a framework designed to learn compact vector representations, of LLMs that facilitate downstream applications involving many models, such as model routing. We introduce an encoder-decoder approach for learning such embeddings, along with a systematic framework to evaluate their effectiveness. Empirical results show that EmbedLLM outperforms prior methods in model routing both in accuracy and latency. Additionally, we demonstrate that our method can forecast a model's performance on multiple benchmarks, without incurring additional inference cost. Extensive probing experiments validate that the learned embeddings capture key model characteristics, e.g. whether the model is specialized for coding tasks, even without being explicitly trained on them. We open source our dataset, code and embedder to facilitate further research and application.
翻訳日:2024-11-04 07:55:57 公開日:2024-10-16
# キーグリッド:グリッドヒートマップ特徴を用いた教師なし3次元キーポイント検出

Key-Grid: Unsupervised 3D Keypoints Detection using Grid Heatmap Features ( http://arxiv.org/abs/2410.02237v1 )

ライセンス: Link先を確認
Chengkai Hou, Zhengrong Xue, Bingyang Zhou, Jinghan Ke, Lin Shao, Huazhe Xu, (参考訳) セマンティック一貫性を持つ3Dキーポイントの検出は、ポーズ推定、形状登録、ロボット工学といった多くのシナリオで広く利用されている。 現在、ほとんど教師なしの3Dキーポイント検出法は、剛体物体に焦点をあてている。 しかし、変形可能なオブジェクトに直面した場合、それらが識別するキーポイントはセマンティック一貫性を十分に保持しない。 本稿では, 自己エンコーダフレームワークである剛体および変形可能なオブジェクトに対して, キーグリッドを用いたキーポイント検出手法を提案する。 エンコーダはキーポイントを予測し、デコーダは生成されたキーポイントを使用してオブジェクトを再構築する。 従来とは違って,同定されたキーポイントを利用して,デコーダ部で使用されるグリッドヒートマップと呼ばれる3次元グリッド特徴熱マップを形成する。 グリッドヒートマップ(英: Grid Heatmap)は、3次元立方体空間で一様にサンプリングされた格子点の潜伏変数を表す新しい概念である。 一方、エンコーダの各レイヤからの情報をデコーダセクションに組み込む。 我々は、ベンチマークデータセットのリスト上でKey-Gridを広範囲に評価する。 Key-Gridはキーポイントのセマンティック一貫性と位置精度に関する最先端のパフォーマンスを実現する。 さらに、ノイズやダウンサンプリングに対するキーグリッドの堅牢性を示す。 さらに、キーグリッドをSE(3)不変バックボーンに一般化しながら、キーポイントのSE-(3)不変性を達成する。

Detecting 3D keypoints with semantic consistency is widely used in many scenarios such as pose estimation, shape registration and robotics. Currently, most unsupervised 3D keypoint detection methods focus on the rigid-body objects. However, when faced with deformable objects, the keypoints they identify do not preserve semantic consistency well. In this paper, we introduce an innovative unsupervised keypoint detector Key-Grid for both the rigid-body and deformable objects, which is an autoencoder framework. The encoder predicts keypoints and the decoder utilizes the generated keypoints to reconstruct the objects. Unlike previous work, we leverage the identified keypoint in formation to form a 3D grid feature heatmap called grid heatmap, which is used in the decoder section. Grid heatmap is a novel concept that represents the latent variables for grid points sampled uniformly in the 3D cubic space, where these variables are the shortest distance between the grid points and the skeleton connected by keypoint pairs. Meanwhile, we incorporate the information from each layer of the encoder into the decoder section. We conduct an extensive evaluation of Key-Grid on a list of benchmark datasets. Key-Grid achieves the state-of-the-art performance on the semantic consistency and position accuracy of keypoints. Moreover, we demonstrate the robustness of Key-Grid to noise and downsampling. In addition, we achieve SE-(3) invariance of keypoints though generalizing Key-Grid to a SE(3)-invariant backbone.
翻訳日:2024-11-04 07:46:05 公開日:2024-10-16
# キーグリッド:グリッドヒートマップ特徴を用いた教師なし3次元キーポイント検出

Key-Grid: Unsupervised 3D Keypoints Detection using Grid Heatmap Features ( http://arxiv.org/abs/2410.02237v2 )

ライセンス: Link先を確認
Chengkai Hou, Zhengrong Xue, Bingyang Zhou, Jinghan Ke, Lin Shao, Huazhe Xu, (参考訳) セマンティック一貫性を持つ3Dキーポイントの検出は、ポーズ推定、形状登録、ロボット工学といった多くのシナリオで広く利用されている。 現在、ほとんど教師なしの3Dキーポイント検出法は、剛体物体に焦点をあてている。 しかし、変形可能なオブジェクトに直面した場合、それらが識別するキーポイントはセマンティック一貫性を十分に保持しない。 本稿では, 自己エンコーダフレームワークである剛体および変形可能なオブジェクトに対して, キーグリッドを用いたキーポイント検出手法を提案する。 エンコーダはキーポイントを予測し、デコーダは生成されたキーポイントを使用してオブジェクトを再構築する。 従来とは違って,同定されたキーポイントを利用して,デコーダ部で使用されるグリッドヒートマップと呼ばれる3次元グリッド特徴熱マップを形成する。 グリッドヒートマップ(英: Grid Heatmap)は、3次元立方体空間で一様にサンプリングされた格子点の潜伏変数を表す新しい概念である。 一方、エンコーダの各レイヤからの情報をデコーダセクションに組み込む。 我々は、ベンチマークデータセットのリスト上でKey-Gridを広範囲に評価する。 Key-Gridはキーポイントのセマンティック一貫性と位置精度に関する最先端のパフォーマンスを実現する。 さらに、ノイズやダウンサンプリングに対するキーグリッドの堅牢性を示す。 さらに、キーグリッドをSE(3)不変バックボーンに一般化しながら、キーポイントのSE-(3)不変性を達成する。

Detecting 3D keypoints with semantic consistency is widely used in many scenarios such as pose estimation, shape registration and robotics. Currently, most unsupervised 3D keypoint detection methods focus on the rigid-body objects. However, when faced with deformable objects, the keypoints they identify do not preserve semantic consistency well. In this paper, we introduce an innovative unsupervised keypoint detector Key-Grid for both the rigid-body and deformable objects, which is an autoencoder framework. The encoder predicts keypoints and the decoder utilizes the generated keypoints to reconstruct the objects. Unlike previous work, we leverage the identified keypoint in formation to form a 3D grid feature heatmap called grid heatmap, which is used in the decoder section. Grid heatmap is a novel concept that represents the latent variables for grid points sampled uniformly in the 3D cubic space, where these variables are the shortest distance between the grid points and the skeleton connected by keypoint pairs. Meanwhile, we incorporate the information from each layer of the encoder into the decoder section. We conduct an extensive evaluation of Key-Grid on a list of benchmark datasets. Key-Grid achieves the state-of-the-art performance on the semantic consistency and position accuracy of keypoints. Moreover, we demonstrate the robustness of Key-Grid to noise and downsampling. In addition, we achieve SE-(3) invariance of keypoints though generalizing Key-Grid to a SE(3)-invariant backbone.
翻訳日:2024-11-04 07:46:05 公開日:2024-10-16
# 不均衡最適輸送による無監督点雲の完結

Unsupervised Point Cloud Completion through Unbalanced Optimal Transport ( http://arxiv.org/abs/2410.02671v1 )

ライセンス: Link先を確認
Taekyung Lee, Jaemoo Choi, Jaewoong Choi, (参考訳) 未ペアのポイントクラウド補完は、未ペアの未完了と完全なポイントクラウドデータから完了マップを学ぶ方法を探る。 本稿では,不均衡最適輸送マップ(Un Balanced Optimal Transport Map for Unpaired Point Cloud Completion (UOT-UPC)) を用いた不均衡点雲の補完手法を提案する。 未ペアの点雲完了は、自然に最適輸送(OT)問題と解釈でき、未ペアの点雲完了データセットでよく見られるクラス不均衡問題に対処する不均衡最適輸送(UOT)アプローチを導入することを実証する。 さらに,未完成な完了タスクの適切なコスト関数を解析する。 この分析はInfoCDコスト関数がこのタスクに特に適していることを示している。 我々のモデルは、単一カテゴリとマルチカテゴリの両方のデータセットにおいて、競合的または優れた結果を達成するために、未完成のポイントクラウドコンプリートにUTTを活用する最初の試みである。 特に、私たちのモデルは、不完全なクラウドデータセットと完全なクラウドデータセットのカテゴリの割合が異なるクラス不均衡のシナリオで特に効果的です。

Unpaired point cloud completion explores methods for learning a completion map from unpaired incomplete and complete point cloud data. In this paper, we propose a novel approach for unpaired point cloud completion using the unbalanced optimal transport map, called Unbalanced Optimal Transport Map for Unpaired Point Cloud Completion (UOT-UPC). We demonstrate that the unpaired point cloud completion can be naturally interpreted as the Optimal Transport (OT) problem and introduce the Unbalanced Optimal Transport (UOT) approach to address the class imbalance problem, which is prevalent in unpaired point cloud completion datasets. Moreover, we analyze the appropriate cost function for unpaired completion tasks. This analysis shows that the InfoCD cost function is particularly well-suited for this task. Our model is the first attempt to leverage UOT for unpaired point cloud completion, achieving competitive or superior results on both single-category and multi-category datasets. In particular, our model is especially effective in scenarios with class imbalance, where the proportions of categories are different between the incomplete and complete point cloud datasets.
翻訳日:2024-11-04 01:42:49 公開日:2024-10-16
# 不均衡最適輸送による無監督点雲の完結

Unsupervised Point Cloud Completion through Unbalanced Optimal Transport ( http://arxiv.org/abs/2410.02671v2 )

ライセンス: Link先を確認
Taekyung Lee, Jaemoo Choi, Myungjoo Kang, Jaewoong Choi, (参考訳) 未ペアのポイントクラウド補完は、未ペアの未完了と完全なポイントクラウドデータから完了マップを学ぶ方法を探る。 本稿では,不均衡最適輸送マップ(Un Balanced Optimal Transport Map for Unpaired Point Cloud Completion (UOT-UPC)) を用いた不均衡点雲の補完手法を提案する。 未ペアの点雲完了は、自然に最適輸送(OT)問題と解釈でき、未ペアの点雲完了データセットでよく見られるクラス不均衡問題に対処する不均衡最適輸送(UOT)アプローチを導入することを実証する。 さらに,未完成な完了タスクの適切なコスト関数を解析する。 この分析はInfoCDコスト関数がこのタスクに特に適していることを示している。 我々のモデルは、単一カテゴリとマルチカテゴリの両方のデータセットにおいて、競合的または優れた結果を達成するために、未完成のポイントクラウドコンプリートにUTTを活用する最初の試みである。 特に、私たちのモデルは、不完全なクラウドデータセットと完全なクラウドデータセットのカテゴリの割合が異なるクラス不均衡のシナリオで特に効果的です。

Unpaired point cloud completion explores methods for learning a completion map from unpaired incomplete and complete point cloud data. In this paper, we propose a novel approach for unpaired point cloud completion using the unbalanced optimal transport map, called Unbalanced Optimal Transport Map for Unpaired Point Cloud Completion (UOT-UPC). We demonstrate that the unpaired point cloud completion can be naturally interpreted as the Optimal Transport (OT) problem and introduce the Unbalanced Optimal Transport (UOT) approach to address the class imbalance problem, which is prevalent in unpaired point cloud completion datasets. Moreover, we analyze the appropriate cost function for unpaired completion tasks. This analysis shows that the InfoCD cost function is particularly well-suited for this task. Our model is the first attempt to leverage UOT for unpaired point cloud completion, achieving competitive or superior results on both single-category and multi-category datasets. In particular, our model is especially effective in scenarios with class imbalance, where the proportions of categories are different between the incomplete and complete point cloud datasets.
翻訳日:2024-11-04 01:42:49 公開日:2024-10-16
# テンソルネットワークからの擬似絡み合い

Pseudoentanglement from tensor networks ( http://arxiv.org/abs/2410.02758v1 )

ライセンス: Link先を確認
Zihan Cheng, Xiaozhou Feng, Matteo Ippoliti, (参考訳) 擬アンタングル状態は、それらの絡み合い構造を隠す能力によって定義される:それらは、多項式資源を持つ任意の観測者とランダム状態とは区別できないが、ランダム状態よりも絡み合いがはるかに少ない。 相および/または部分状態に基づく既存の擬似絡み目の構成は、それらが隠すことのできる絡み目構造において制限される: 例えば、状態は1つの切片、全ての切片、または1次元の局所切片に対して低い絡み目を持つことがある。 ここでは、達成可能な絡み合い構造において、より柔軟な(擬)ランダムなテンソルネットワークに基づく疑似絡み合い状態の構成を導入する。 擬似乱数ユニタリゲートの階段回路として実現可能な行列積状態の最も単純な例を用いて、我々の構成について説明する。 すると、等尺的実現を許容する任意のテンソルネットワーク構造にその構成を一般化する。 この結果の顕著な応用は、[Aaronson et al , arXiv:2211.00747] に表される疑問に答え、龍高柳の「最小切断」式に従って絡み合った「ホログラフィー」状態を構築することである。

Pseudoentangled states are defined by their ability to hide their entanglement structure: they are indistinguishable from random states to any observer with polynomial resources, yet can have much less entanglement than random states. Existing constructions of pseudoentanglement based on phase- and/or subset-states are limited in the entanglement structures they can hide: e.g., the states may have low entanglement on a single cut, on all cuts at once, or on local cuts in one dimension. Here we introduce new constructions of pseudoentangled states based on (pseudo)random tensor networks that affords much more flexibility in the achievable entanglement structures. We illustrate our construction with the simplest example of a matrix product state, realizable as a staircase circuit of pseudorandom unitary gates, which exhibits pseudo-area-law scaling of entanglement in one dimension. We then generalize our construction to arbitrary tensor network structures that admit an isometric realization. A notable application of this result is the construction of pseudoentangled `holographic' states whose entanglement entropy obeys a Ryu-Takayanagi `minimum-cut' formula, answering a question posed in [Aaronson et al., arXiv:2211.00747].
翻訳日:2024-11-03 06:04:22 公開日:2024-10-16
# テンソルネットワークからの擬似絡み合い

Pseudoentanglement from tensor networks ( http://arxiv.org/abs/2410.02758v2 )

ライセンス: Link先を確認
Zihan Cheng, Xiaozhou Feng, Matteo Ippoliti, (参考訳) 擬アンタングル状態は、それらの絡み合い構造を隠す能力によって定義される:それらは、多項式資源を持つ任意の観測者とランダム状態とは区別できないが、ランダム状態よりも絡み合いがはるかに少ない。 相および/または部分状態に基づく既存の擬似絡み目の構成は、それらが隠すことのできる絡み目構造において制限される: 例えば、状態は1つの切片、全ての切片、または1次元の局所切片に対して低い絡み目を持つことがある。 ここでは、達成可能な絡み合い構造において、より柔軟な(擬)ランダムなテンソルネットワークに基づく疑似絡み合い状態の構成を導入する。 擬似乱数ユニタリゲートの階段回路として実現可能な行列積状態の最も単純な例を用いて、我々の構成について説明する。 すると、等尺的実現を許容する任意のテンソルネットワーク構造にその構成を一般化する。 この結果の顕著な応用は、[Aaronson et al , arXiv:2211.00747] に表される疑問に答え、龍高柳の「最小切断」式に従って絡み合った「ホログラフィー」状態を構築することである。

Pseudoentangled states are defined by their ability to hide their entanglement structure: they are indistinguishable from random states to any observer with polynomial resources, yet can have much less entanglement than random states. Existing constructions of pseudoentanglement based on phase- and/or subset-states are limited in the entanglement structures they can hide: e.g., the states may have low entanglement on a single cut, on all cuts at once, or on local cuts in one dimension. Here we introduce new constructions of pseudoentangled states based on (pseudo)random tensor networks that affords much more flexibility in the achievable entanglement structures. We illustrate our construction with the simplest example of a matrix product state, realizable as a staircase circuit of pseudorandom unitary gates, which exhibits pseudo-area-law scaling of entanglement in one dimension. We then generalize our construction to arbitrary tensor network structures that admit an isometric realization. A notable application of this result is the construction of pseudoentangled `holographic' states whose entanglement entropy obeys a Ryu-Takayanagi `minimum-cut' formula, answering a question posed in [Aaronson et al., arXiv:2211.00747].
翻訳日:2024-11-03 06:04:22 公開日:2024-10-16
# Instagram上での新型コロナウイルスに関する5年間の議論: 多言語知覚分析のための50万以上の投稿のInstagramデータセット

Five Years of COVID-19 Discourse on Instagram: A Labeled Instagram Dataset of Over Half a Million Posts for Multilingual Sentiment Analysis ( http://arxiv.org/abs/2410.03293v1 )

ライセンス: Link先を確認
Nirmalya Thakur, (参考訳) 本稿では,Instagram上での新型コロナウイルス関連投稿のマイニングと分析に焦点を当てた3つの科学的コントリビューションについて述べる。 まず、2020年1月から2024年9月までに発行された新型コロナウイルスに関する500,153件のInstagram投稿の多言語データセットを提示する。 このデータセットはhttps://dx.doi.org/10.21227/d46p-v480で利用可能で、161の異なる言語でInstagramの投稿と535,021のハッシュタグを含んでいる。 このデータセットの開発後、多言語感情分析が行われ、各ポストを肯定的、否定的、中立的なものに分類した。 このデータセットでは、感情分析の結果が別の属性として示される。 第二に、2020年から2024年にかけての感情分析の結果を示す。 パンデミックの開始以来、Instagram上での新型コロナウイルス関連感情の傾向が明らかになった。 例えば、2020年から2024年の間、感情傾向は顕著な変化を示し、肯定的な感情は38.35%から28.69%に減少し、中立的な感情は44.19%から58.34%に増加した。 最後に,言語固有の感情分析の知見も提示する。 この分析は、Instagram上のさまざまな言語で投稿された投稿にまたがって、同様の、対照的な感情傾向を浮き彫りにした。 例えば、全英語投稿のうち49.68%が肯定的、14.84%が否定的、35.48%が中立的だった。 対照的にヒンディー語の投稿では4.40%が肯定的、57.04%が否定的、38.56%が中立的であり、この2つの言語間の感情分布の違いを反映している。

The work presented in this paper makes three scientific contributions with a specific focus on mining and analysis of COVID-19-related posts on Instagram. First, it presents a multilingual dataset of 500,153 Instagram posts about COVID-19 published between January 2020 and September 2024. This dataset, available at https://dx.doi.org/10.21227/d46p-v480, contains Instagram posts in 161 different languages as well as 535,021 distinct hashtags. After the development of this dataset, multilingual sentiment analysis was performed, which involved classifying each post as positive, negative, or neutral. The results of sentiment analysis are presented as a separate attribute in this dataset. Second, it presents the results of performing sentiment analysis per year from 2020 to 2024. The findings revealed the trends in sentiment related to COVID-19 on Instagram since the beginning of the pandemic. For instance, between 2020 and 2024, the sentiment trends show a notable shift, with positive sentiment decreasing from 38.35% to 28.69%, while neutral sentiment rising from 44.19% to 58.34%. Finally, the paper also presents findings of language-specific sentiment analysis. This analysis highlighted similar and contrasting trends of sentiment across posts published in different languages on Instagram. For instance, out of all English posts, 49.68% were positive, 14.84% were negative, and 35.48% were neutral. In contrast, among Hindi posts, 4.40% were positive, 57.04% were negative, and 38.56% were neutral, reflecting distinct differences in the sentiment distribution between these two languages.
翻訳日:2024-11-02 23:18:35 公開日:2024-10-16
# Instagram上での新型コロナウイルスに関する5年間の議論: 多言語知覚分析のための50万以上の投稿のInstagramデータセット

Five Years of COVID-19 Discourse on Instagram: A Labeled Instagram Dataset of Over Half a Million Posts for Multilingual Sentiment Analysis ( http://arxiv.org/abs/2410.03293v2 )

ライセンス: Link先を確認
Nirmalya Thakur, (参考訳) 本稿では,Instagram上での新型コロナウイルス関連投稿のマイニングと分析に焦点を当てた3つの科学的コントリビューションについて述べる。 まず、2020年1月から2024年9月までに発行された新型コロナウイルスに関する500,153件のInstagram投稿の多言語データセットを提示する。 このデータセットはhttps://dx.doi.org/10.21227/d46p-v480で利用可能で、161の異なる言語でInstagramの投稿と535,021のハッシュタグを含んでいる。 このデータセットの開発後、多言語感情分析が行われ、各ポストを肯定的、否定的、中立的なものに分類した。 このデータセットでは、感情分析の結果が別の属性として示される。 第二に、2020年から2024年にかけての感情分析の結果を示す。 パンデミックの開始以来、Instagram上での新型コロナウイルス関連感情の傾向が明らかになった。 例えば、2020年から2024年の間、感情傾向は顕著な変化を示し、肯定的な感情は38.35%から28.69%に減少し、中立的な感情は44.19%から58.34%に増加した。 最後に,言語固有の感情分析の知見も提示する。 この分析は、Instagram上のさまざまな言語で投稿された投稿にまたがって、同様の、対照的な感情傾向を浮き彫りにした。 例えば、全英語投稿のうち49.68%が肯定的、14.84%が否定的、35.48%が中立的だった。 対照的にヒンディー語の投稿では4.40%が肯定的、57.04%が否定的、38.56%が中立的であり、この2つの言語間の感情分布の違いを反映している。

The work presented in this paper makes three scientific contributions with a specific focus on mining and analysis of COVID-19-related posts on Instagram. First, it presents a multilingual dataset of 500,153 Instagram posts about COVID-19 published between January 2020 and September 2024. This dataset, available at https://dx.doi.org/10.21227/d46p-v480, contains Instagram posts in 161 different languages as well as 535,021 distinct hashtags. After the development of this dataset, multilingual sentiment analysis was performed, which involved classifying each post as positive, negative, or neutral. The results of sentiment analysis are presented as a separate attribute in this dataset. Second, it presents the results of performing sentiment analysis per year from 2020 to 2024. The findings revealed the trends in sentiment related to COVID-19 on Instagram since the beginning of the pandemic. For instance, between 2020 and 2024, the sentiment trends show a notable shift, with positive sentiment decreasing from 38.35% to 28.69%, while neutral sentiment rising from 44.19% to 58.34%. Finally, the paper also presents findings of language-specific sentiment analysis. This analysis highlighted similar and contrasting trends of sentiment across posts published in different languages on Instagram. For instance, out of all English posts, 49.68% were positive, 14.84% were negative, and 35.48% were neutral. In contrast, among Hindi posts, 4.40% were positive, 57.04% were negative, and 38.56% were neutral, reflecting distinct differences in the sentiment distribution between these two languages.
翻訳日:2024-11-02 23:18:35 公開日:2024-10-16
# Instagram上での新型コロナウイルスに関する5年間の議論: 多言語知覚分析のための50万以上の投稿のInstagramデータセット

Five Years of COVID-19 Discourse on Instagram: A Labeled Instagram Dataset of Over Half a Million Posts for Multilingual Sentiment Analysis ( http://arxiv.org/abs/2410.03293v3 )

ライセンス: Link先を確認
Nirmalya Thakur, (参考訳) 本稿では,Instagram上での新型コロナウイルス関連投稿のマイニングと分析に焦点を当てた3つの科学的コントリビューションについて述べる。 まず、2020年1月から2024年9月までに発行された新型コロナウイルスに関する500,153件のInstagram投稿の多言語データセットを提示する。 このデータセットはhttps://dx.doi.org/10.21227/d46p-v480で利用可能で、161の異なる言語でInstagramの投稿と535,021のハッシュタグを含んでいる。 このデータセットの開発後、多言語感情分析が行われ、各ポストを肯定的、否定的、中立的なものに分類した。 このデータセットでは、感情分析の結果が別の属性として示される。 第二に、2020年から2024年にかけての感情分析の結果を示す。 パンデミックの開始以来、Instagram上での新型コロナウイルス関連感情の傾向が明らかになった。 例えば、2020年から2024年の間、感情傾向は顕著な変化を示し、肯定的な感情は38.35%から28.69%に減少し、中立的な感情は44.19%から58.34%に増加した。 最後に,言語固有の感情分析の知見も提示する。 この分析は、Instagram上のさまざまな言語で投稿された投稿にまたがって、同様の、対照的な感情傾向を浮き彫りにした。 例えば、全英語投稿のうち49.68%が肯定的、14.84%が否定的、35.48%が中立的だった。 対照的にヒンディー語の投稿では4.40%が肯定的、57.04%が否定的、38.56%が中立的であり、この2つの言語間の感情分布の違いを反映している。

The work presented in this paper makes three scientific contributions with a specific focus on mining and analysis of COVID-19-related posts on Instagram. First, it presents a multilingual dataset of 500,153 Instagram posts about COVID-19 published between January 2020 and September 2024. This dataset, available at https://dx.doi.org/10.21227/d46p-v480, contains Instagram posts in 161 different languages as well as 535,021 distinct hashtags. After the development of this dataset, multilingual sentiment analysis was performed, which involved classifying each post as positive, negative, or neutral. The results of sentiment analysis are presented as a separate attribute in this dataset. Second, it presents the results of performing sentiment analysis per year from 2020 to 2024. The findings revealed the trends in sentiment related to COVID-19 on Instagram since the beginning of the pandemic. For instance, between 2020 and 2024, the sentiment trends show a notable shift, with positive sentiment decreasing from 38.35% to 28.69%, while neutral sentiment rising from 44.19% to 58.34%. Finally, the paper also presents findings of language-specific sentiment analysis. This analysis highlighted similar and contrasting trends of sentiment across posts published in different languages on Instagram. For instance, out of all English posts, 49.68% were positive, 14.84% were negative, and 35.48% were neutral. In contrast, among Hindi posts, 4.40% were positive, 57.04% were negative, and 38.56% were neutral, reflecting distinct differences in the sentiment distribution between these two languages.
翻訳日:2024-11-02 23:08:51 公開日:2024-10-16
# デジタルアーカイブと没入体験によるキンホアイ川ランタンシャドウの養殖促進

Promoting the Culture of Qinhuai River Lantern Shadow Puppetry with a Digital Archive and Immersive Experience ( http://arxiv.org/abs/2410.03532v2 )

ライセンス: Link先を確認
Yuanfang Liu, Rua Mae Williams, Guanghong Xie, Yu Wang, Wenrui Zuo, (参考訳) 無形の文化遺産として、中国の影の人形は、その魅力と理解の観点から、特に異なる文化的背景を持つ聴衆の間で、課題に直面している。 また、人形の壊れやすい材質や保存の障害がさらなる課題となっている。 本研究は,漢詩や絵画の場面を再現するデジタル技術を活用した,清海川ランタン祭の影人形のデジタルアーカイブを作成する。 さらに, 定性的手法と定量的手法を組み合わせた混合手法を用いて, 没入型シャドウ人形の受容と観客体験を評価する。 構造方程式モデリングなどの手法を用いて, 感覚, 感情, 文化次元, 研究仮説から深層探査を行った。 その結果、使いやすさと文化体験の向上は、観客の魅力と理解を向上させる一方で、感情体験の強化は観客の参加意欲を高めることが示唆された。 本研究は,影人形の保存と伝達に重要な役割を担っている。

As an intangible cultural heritage, Chinese shadow puppetry is facing challenges in terms of its appeal and comprehension, especially among audiences from different cultural backgrounds. Additionally, the fragile materials of the puppets and obstacles to preservation pose further challenges. This study creates a digital archive of the Qinhuai River Lantern Festival shadow puppetry, utilizing digital technology to recreate scenes depicted in traditional Chinese poetry and painting. Moreover, this study employs a mixed-method approach, combining qualitative and quantitative methods, to evaluate the acceptance and audience experience of immersive shadow puppetry. An in-depth exploration was conducted from sensory, emotional, cultural dimensions and research hypotheses were tested using structural equation modeling and other methods. The results indicate that enhancing ease of use and cultural experience can improve audience appeal and comprehension, while enhancing emotional experience can increase audience participation intention. Our research holds profound significance for the preservation and transmission of shadow puppetry.
翻訳日:2024-11-02 21:39:44 公開日:2024-10-16
# 誤りから学ぶことによるエンハンス推論:複数大言語モデルからのピアレビュー知識蒸留

Enhance Reasoning by Learning from Mistakes: Peer-Review Knowledge Distillation from Multiple Large Language Models ( http://arxiv.org/abs/2410.03663v1 )

ライセンス: Link先を確認
Zhuochun Li, Yuelyu Ji, Rui Meng, Daqing He, (参考訳) 大規模言語モデル(LLM)は、疑問論理を生成して複雑な推論能力を示し、自然言語処理(NLP)タスクにおいて例外的な性能を示した。 しかしながら、これらの推論能力は一般的に、数千億のパラメータを持つモデルに現れ、実世界の展開において重要な計算上の課題を生み出している。 最近の研究は、商業用LLMからの知識蒸留(KD)によるオープンソースの小型モデルの改良に集中している。 しかしながら、これらの研究の多くは、訓練のための金の根拠として、1つのLLMからの応答のみに依存している。 本稿では,新しいMAPD(Mistake-Aware Peer-Review Distillation)アプローチを紹介する。 1) 教師から金の合理性を得る代わりに, 生徒の誤りを識別・説明し, カスタマイズした指導学習データを提供する。 2) 教師のLLM間の擬似ピアレビュープロセスを設計し, 受理しきい値以上の有理数のみを選択する。 これにより、教師が根拠の欠陥を正しく推測する機会が減り、データ品質が向上する。 数学的・常識的・論理的推論タスクに関する総合的な実験と分析は,本手法の有効性を実証する。

Large language models (LLMs) have exhibited complex reasoning abilities by generating question rationales and demonstrated exceptional performance in natural language processing (NLP) tasks. However, these reasoning capabilities generally emerge in models with tens of billions of parameters, creating significant computational challenges for real-world deployment. Recent research has concentrated on improving open-source smaller models through knowledge distillation (KD) from commercial LLMs. Nevertheless, most of these studies rely solely on the responses from one single LLM as the gold rationale for training. In this paper, we introduce a novel Mistake-Aware Peer-Review Distillation (MAPD) approach: 1) Instead of merely obtaining gold rationales from teachers, our method asks teachers to identify and explain the student's mistakes, providing customized instruction learning data. 2) We design a simulated peer-review process between teacher LLMs, which selects only the generated rationales above the acceptance threshold. This reduces the chance of teachers guessing correctly with flawed rationale, improving instructional data quality. Comprehensive experiments and analysis on mathematical, commonsense, and logical reasoning tasks demonstrate the effectiveness of our method.
翻訳日:2024-11-02 20:48:16 公開日:2024-10-16
# 委員会からの学び : ピアレビューによる教師の混合による蒸留の推論

Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review ( http://arxiv.org/abs/2410.03663v2 )

ライセンス: Link先を確認
Zhuochun Li, Yuelyu Ji, Rui Meng, Daqing He, (参考訳) 最近の研究は、数十億のパラメータを持つ大規模言語モデル(LLM)に推論能力が現れるのに対して、商業LLMからの知識蒸留(KD)を通じて、より小さなオープンソースモデルを改善することに焦点を当てている。 しかしながら、これらの研究の多くは、自然な人間の学習プロセスとは異なり、金の理性として単一のLSMからの反応にのみ依存しており、正しい答えと失敗の背後にある理由の両方を理解する必要がある。 本稿では, ピアリビュー(FAIR)による新しいフォールト・アウェア蒸留法を提案する。 1) 教師から金の合理性を得る代わりに, 教師に対して, 生徒の誤りを識別し, 説明するよう求め, カスタマイズした指導学習データを提供する。 2) 教師のLLM間の擬似ピアレビュープロセスを設計し, 受理しきい値以上の有理数のみを選択する。 これにより、教師が根拠の欠陥を正しく推測する機会が減り、データ品質が向上する。 数学的・常識的・論理的推論タスクに関する総合的な実験と分析は,本手法の有効性を実証する。

While reasoning capabilities typically emerge in large language models (LLMs) with tens of billions of parameters, recent research focuses on improving smaller open-source models through knowledge distillation (KD) from commercial LLMs. However, many of these studies rely solely on responses from a single LLM as the gold rationale, unlike the natural human learning process, which involves understanding both the correct answers and the reasons behind mistakes. In this paper, we introduce a novel Fault-Aware Distillation via Peer-Review (FAIR) approach: 1) Instead of merely obtaining gold rationales from teachers, our method asks teachers to identify and explain the student's mistakes, providing customized instruction learning data. 2) We design a simulated peer-review process between teacher LLMs, which selects only the generated rationales above the acceptance threshold. This reduces the chance of teachers guessing correctly with flawed rationale, improving instructional data quality. Comprehensive experiments and analysis on mathematical, commonsense, and logical reasoning tasks demonstrate the effectiveness of our method.
翻訳日:2024-11-02 20:48:16 公開日:2024-10-16
# 決定を解釈する:視覚分類における一般化のための論理的推論規則化

Interpret Your Decision: Logical Reasoning Regularization for Generalization in Visual Classification ( http://arxiv.org/abs/2410.04492v1 )

ライセンス: Link先を確認
Zhaorui Tan, Xi Yang, Qiufeng Wang, Anh Nguyen, Kaizhu Huang, (参考訳) 視覚モデルは画像分類に優れているが、見えない領域からのイメージの分類や新しいカテゴリの発見など、見えないデータへの一般化に苦慮している。 本稿では,視覚分類における論理的推論とディープラーニングの一般化の関係について検討する。 L-Regと呼ばれる論理正規化は、画像分類に論理解析の枠組みを橋渡しする。 我々の研究は、L-Regが特徴分布と分類器重みの点でモデルの複雑さを減少させることを示した。 具体的には、L-Regがもたらす解釈可能性を明らかにし、そのモデルが人物の顔などの有能な特徴を抽出して分類することを可能にする。 理論的解析と実験により、L-Regは多領域の一般化や一般化されたカテゴリ発見など、様々なシナリオにおける一般化を促進することが示されている。 画像が未知のクラスや見えないドメインにまたがる複雑な実世界のシナリオでは、L-Regは一貫して一般化を改善し、実用性を強調している。

Vision models excel in image classification but struggle to generalize to unseen data, such as classifying images from unseen domains or discovering novel categories. In this paper, we explore the relationship between logical reasoning and deep learning generalization in visual classification. A logical regularization termed L-Reg is derived which bridges a logical analysis framework to image classification. Our work reveals that L-Reg reduces the complexity of the model in terms of the feature distribution and classifier weights. Specifically, we unveil the interpretability brought by L-Reg, as it enables the model to extract the salient features, such as faces to persons, for classification. Theoretical analysis and experiments demonstrate that L-Reg enhances generalization across various scenarios, including multi-domain generalization and generalized category discovery. In complex real-world scenarios where images span unknown classes and unseen domains, L-Reg consistently improves generalization, highlighting its practical efficacy.
翻訳日:2024-11-02 07:06:24 公開日:2024-10-16
# 決定を解釈する:視覚分類における一般化のための論理的推論規則化

Interpret Your Decision: Logical Reasoning Regularization for Generalization in Visual Classification ( http://arxiv.org/abs/2410.04492v2 )

ライセンス: Link先を確認
Zhaorui Tan, Xi Yang, Qiufeng Wang, Anh Nguyen, Kaizhu Huang, (参考訳) 視覚モデルは画像分類に優れているが、見えない領域からのイメージの分類や新しいカテゴリの発見など、見えないデータへの一般化に苦慮している。 本稿では,視覚分類における論理的推論とディープラーニングの一般化の関係について検討する。 L-Regと呼ばれる論理正規化は、画像分類に論理解析の枠組みを橋渡しする。 我々の研究は、L-Regが特徴分布と分類器重みの点でモデルの複雑さを減少させることを示した。 具体的には、L-Regがもたらす解釈可能性を明らかにし、そのモデルが人物の顔などの有能な特徴を抽出して分類することを可能にする。 理論的解析と実験により、L-Regは多領域の一般化や一般化されたカテゴリ発見など、様々なシナリオにおける一般化を促進することが示されている。 画像が未知のクラスや見えないドメインにまたがる複雑な実世界のシナリオでは、L-Regは一貫して一般化を改善し、実用性を強調している。

Vision models excel in image classification but struggle to generalize to unseen data, such as classifying images from unseen domains or discovering novel categories. In this paper, we explore the relationship between logical reasoning and deep learning generalization in visual classification. A logical regularization termed L-Reg is derived which bridges a logical analysis framework to image classification. Our work reveals that L-Reg reduces the complexity of the model in terms of the feature distribution and classifier weights. Specifically, we unveil the interpretability brought by L-Reg, as it enables the model to extract the salient features, such as faces to persons, for classification. Theoretical analysis and experiments demonstrate that L-Reg enhances generalization across various scenarios, including multi-domain generalization and generalized category discovery. In complex real-world scenarios where images span unknown classes and unseen domains, L-Reg consistently improves generalization, highlighting its practical efficacy.
翻訳日:2024-11-02 07:06:24 公開日:2024-10-16
# 決定を解釈する:視覚分類における一般化のための論理的推論規則化

Interpret Your Decision: Logical Reasoning Regularization for Generalization in Visual Classification ( http://arxiv.org/abs/2410.04492v3 )

ライセンス: Link先を確認
Zhaorui Tan, Xi Yang, Qiufeng Wang, Anh Nguyen, Kaizhu Huang, (参考訳) 視覚モデルは画像分類に優れているが、見えない領域からのイメージの分類や新しいカテゴリの発見など、見えないデータへの一般化に苦慮している。 本稿では,視覚分類における論理的推論とディープラーニングの一般化の関係について検討する。 L-Regと呼ばれる論理正規化は、画像分類に論理解析の枠組みを橋渡しする。 我々の研究は、L-Regが特徴分布と分類器重みの点でモデルの複雑さを減少させることを示した。 具体的には、L-Regがもたらす解釈可能性を明らかにし、そのモデルが人物の顔などの有能な特徴を抽出して分類することを可能にする。 理論的解析と実験により、L-Regは多領域の一般化や一般化されたカテゴリ発見など、様々なシナリオにおける一般化を促進することが示されている。 画像が未知のクラスや見えないドメインにまたがる複雑な実世界のシナリオでは、L-Regは一貫して一般化を改善し、実用性を強調している。

Vision models excel in image classification but struggle to generalize to unseen data, such as classifying images from unseen domains or discovering novel categories. In this paper, we explore the relationship between logical reasoning and deep learning generalization in visual classification. A logical regularization termed L-Reg is derived which bridges a logical analysis framework to image classification. Our work reveals that L-Reg reduces the complexity of the model in terms of the feature distribution and classifier weights. Specifically, we unveil the interpretability brought by L-Reg, as it enables the model to extract the salient features, such as faces to persons, for classification. Theoretical analysis and experiments demonstrate that L-Reg enhances generalization across various scenarios, including multi-domain generalization and generalized category discovery. In complex real-world scenarios where images span unknown classes and unseen domains, L-Reg consistently improves generalization, highlighting its practical efficacy.
翻訳日:2024-11-02 07:06:24 公開日:2024-10-16
# LLMにおける適応オデュッセイ:なぜ追加の事前訓練が改善に失敗するのか?

Adaptation Odyssey in LLMs: Why Does Additional Pretraining Sometimes Fail to Improve? ( http://arxiv.org/abs/2410.05581v1 )

ライセンス: Link先を確認
Fırat Öncel, Matthias Bethge, Beyza Ermis, Mirco Ravanelli, Cem Subakan, Çağatay Yıldız, (参考訳) 過去10年間で、ディープラーニングモデルの一般化と適応能力は、通常、一定のトレーニングとテスト分布に基づいて評価された。 従来のディープラーニングとは対照的に、大きな言語モデル(LLM)は、 (i)さらに過度にパラメータ化される (二)人間の介入を最小限に抑えてインターネットからキュレーションされた未ラベルテキストコーパスで訓練し、 (三)オンライン方式で訓練した。 これらのスタークコントラストは、研究者がモデル一般化と深層学習の文脈における適応について学んだ教訓をLLMに転送することを妨げている。 この目的のために,本稿では,すでに訓練済みの言語モデルのさらなるトレーニングに光を当てることを目的とした経験的観察を紹介する。 具体的には、テキストドメイン上でモデルをトレーニングすることで、同じドメインのテスト部分においてその難易度を低下させることができることを実証する。 この結果から,LLMの事前学習データセットとの類似性には,性能劣化が正の相関関係があることが示唆された。 さらなるトークンレベルのパープレキシティ観測により、このパープレキシティの劣化は、ドメインについて情報を持たない少数のトークンによるものであることが明らかとなった。 これらの発見が、モデルをいつ適応するか、あるいは基礎的な能力に依存するかを決める上で、私たちを導いてくれることを期待しています。

In the last decade, the generalization and adaptation abilities of deep learning models were typically evaluated on fixed training and test distributions. Contrary to traditional deep learning, large language models (LLMs) are (i) even more overparameterized, (ii) trained on unlabeled text corpora curated from the Internet with minimal human intervention, and (iii) trained in an online fashion. These stark contrasts prevent researchers from transferring lessons learned on model generalization and adaptation in deep learning contexts to LLMs. To this end, our short paper introduces empirical observations that aim to shed light on further training of already pretrained language models. Specifically, we demonstrate that training a model on a text domain could degrade its perplexity on the test portion of the same domain. We observe with our subsequent analysis that the performance degradation is positively correlated with the similarity between the additional and the original pretraining dataset of the LLM. Our further token-level perplexity observations reveals that the perplexity degradation is due to a handful of tokens that are not informative about the domain. We hope these findings will guide us in determining when to adapt a model vs when to rely on its foundational capabilities.
翻訳日:2024-11-01 17:48:36 公開日:2024-10-16
# LLMにおける適応オデュッセイ:なぜ追加の事前訓練が改善に失敗するのか?

Adaptation Odyssey in LLMs: Why Does Additional Pretraining Sometimes Fail to Improve? ( http://arxiv.org/abs/2410.05581v2 )

ライセンス: Link先を確認
Fırat Öncel, Matthias Bethge, Beyza Ermis, Mirco Ravanelli, Cem Subakan, Çağatay Yıldız, (参考訳) 過去10年間で、ディープラーニングモデルの一般化と適応能力は、通常、一定のトレーニングとテスト分布に基づいて評価された。 従来のディープラーニングとは対照的に、大きな言語モデル(LLM)は、 (i)さらに過度にパラメータ化される (二)人間の介入を最小限に抑えてインターネットからキュレーションされた未ラベルテキストコーパスで訓練し、 (三)オンライン方式で訓練した。 これらのスタークコントラストは、研究者がモデル一般化と深層学習の文脈における適応について学んだ教訓をLLMに転送することを妨げている。 この目的のために,本稿では,すでに訓練済みの言語モデルのさらなるトレーニングに光を当てることを目的とした経験的観察を紹介する。 具体的には、テキストドメイン上でモデルをトレーニングすることで、同じドメインのテスト部分においてその難易度を低下させることができることを実証する。 この結果から,LLMの事前学習データセットとの類似性には,性能劣化が正の相関関係があることが示唆された。 さらなるトークンレベルのパープレキシティ観測により、このパープレキシティの劣化は、ドメインについて情報を持たない少数のトークンによるものであることが明らかとなった。 これらの発見が、モデルをいつ適応するか、あるいは基礎的な能力に依存するかを決める上で、私たちを導いてくれることを期待しています。

In the last decade, the generalization and adaptation abilities of deep learning models were typically evaluated on fixed training and test distributions. Contrary to traditional deep learning, large language models (LLMs) are (i) even more overparameterized, (ii) trained on unlabeled text corpora curated from the Internet with minimal human intervention, and (iii) trained in an online fashion. These stark contrasts prevent researchers from transferring lessons learned on model generalization and adaptation in deep learning contexts to LLMs. To this end, our short paper introduces empirical observations that aim to shed light on further training of already pretrained language models. Specifically, we demonstrate that training a model on a text domain could degrade its perplexity on the test portion of the same domain. We observe with our subsequent analysis that the performance degradation is positively correlated with the similarity between the additional and the original pretraining dataset of the LLM. Our further token-level perplexity observations reveals that the perplexity degradation is due to a handful of tokens that are not informative about the domain. We hope these findings will guide us in determining when to adapt a model vs when to rely on its foundational capabilities.
翻訳日:2024-11-01 17:48:36 公開日:2024-10-16
# 多様体, ランダム行列, スペクトルギャップ:生成拡散の幾何学的位相

Manifolds, Random Matrices and Spectral Gaps: The geometric phases of generative diffusion ( http://arxiv.org/abs/2410.05898v1 )

ライセンス: Link先を確認
Enrico Ventura, Beatrice Achilli, Gianluigi Silvestri, Carlo Lucibello, Luca Ambrogioni, (参考訳) 本稿では, 多様体仮説に基づく生成拡散モデルの潜時幾何学について検討する。 この目的のために、スコア関数のヤコビアンの固有値(および特異値)のスペクトルを分析し、その不連続性(ギャップ)は異なる部分多様体の存在と次元性を明らかにする。 統計物理学的手法を用いて、いくつかの分布仮定の下でスペクトルギャップのスペクトル分布と公式を導出し、これらの理論予測をトレーニングネットワークから推定されたスペクトルと比較する。 本分析では, 自明な位相, 拡散過程が多様体内部の分布に適合する多様体被覆位相, スコアが多様体に直交し, すべての粒子がデータの支持に投影される連結位相の3つの異なる定性的位相が存在することを明らかにした。 この「労働の分割」は、生成的拡散モデルが、確率ベースモデルに悩まされる多様体過適合現象の影響を受けない理由について、内部分布と多様体幾何学が生成期間中に異なる時間点で生成されるため、エレガントな説明を与える。

In this paper, we investigate the latent geometry of generative diffusion models under the manifold hypothesis. To this purpose, we analyze the spectrum of eigenvalues (and singular values) of the Jacobian of the score function, whose discontinuities (gaps) reveal the presence and dimensionality of distinct sub-manifolds. Using a statistical physics approach, we derive the spectral distributions and formulas for the spectral gaps under several distributional assumptions and we compare these theoretical predictions with the spectra estimated from trained networks. Our analysis reveals the existence of three distinct qualitative phases during the generative process: a trivial phase; a manifold coverage phase where the diffusion process fits the distribution internal to the manifold; a consolidation phase where the score becomes orthogonal to the manifold and all particles are projected on the support of the data. This `division of labor' between different timescales provides an elegant explanation on why generative diffusion models are not affected by the manifold overfitting phenomenon that plagues likelihood-based models, since the internal distribution and the manifold geometry are produced at different time points during generation.
翻訳日:2024-11-01 12:20:15 公開日:2024-10-16
# 多様体, ランダム行列, スペクトルギャップ:生成拡散の幾何学的位相

Manifolds, Random Matrices and Spectral Gaps: The geometric phases of generative diffusion ( http://arxiv.org/abs/2410.05898v2 )

ライセンス: Link先を確認
Enrico Ventura, Beatrice Achilli, Gianluigi Silvestri, Carlo Lucibello, Luca Ambrogioni, (参考訳) 本稿では, 多様体仮説に基づく生成拡散モデルの潜時幾何学について検討する。 この目的のために、スコア関数のヤコビアンの固有値(および特異値)のスペクトルを分析し、その不連続性(ギャップ)は異なる部分多様体の存在と次元性を明らかにする。 統計物理学的手法を用いて、いくつかの分布仮定の下でスペクトルギャップのスペクトル分布と公式を導出し、これらの理論予測をトレーニングネットワークから推定されたスペクトルと比較する。 本分析では, 自明な位相, 拡散過程が多様体内部の分布に適合する多様体被覆位相, スコアが多様体に直交し, すべての粒子がデータの支持に投影される連結位相の3つの異なる定性的位相が存在することを明らかにした。 この「労働の分割」は、生成的拡散モデルが、確率ベースモデルに悩まされる多様体過適合現象の影響を受けない理由について、内部分布と多様体幾何学が生成期間中に異なる時間点で生成されるため、エレガントな説明を与える。

In this paper, we investigate the latent geometry of generative diffusion models under the manifold hypothesis. To this purpose, we analyze the spectrum of eigenvalues (and singular values) of the Jacobian of the score function, whose discontinuities (gaps) reveal the presence and dimensionality of distinct sub-manifolds. Using a statistical physics approach, we derive the spectral distributions and formulas for the spectral gaps under several distributional assumptions and we compare these theoretical predictions with the spectra estimated from trained networks. Our analysis reveals the existence of three distinct qualitative phases during the generative process: a trivial phase; a manifold coverage phase where the diffusion process fits the distribution internal to the manifold; a consolidation phase where the score becomes orthogonal to the manifold and all particles are projected on the support of the data. This `division of labor' between different timescales provides an elegant explanation on why generative diffusion models are not affected by the manifold overfitting phenomenon that plagues likelihood-based models, since the internal distribution and the manifold geometry are produced at different time points during generation.
翻訳日:2024-11-01 12:20:15 公開日:2024-10-16
# 多様体, ランダム行列, スペクトルギャップ:生成拡散の幾何学的位相

Manifolds, Random Matrices and Spectral Gaps: The geometric phases of generative diffusion ( http://arxiv.org/abs/2410.05898v3 )

ライセンス: Link先を確認
Enrico Ventura, Beatrice Achilli, Gianluigi Silvestri, Carlo Lucibello, Luca Ambrogioni, (参考訳) 本稿では, 多様体仮説に基づく生成拡散モデルの潜時幾何学について検討する。 この目的のために、スコア関数のヤコビアンの固有値(および特異値)のスペクトルを分析し、その不連続性(ギャップ)は異なる部分多様体の存在と次元性を明らかにする。 統計物理学的手法を用いて、いくつかの分布仮定の下でスペクトルギャップのスペクトル分布と公式を導出し、これらの理論予測をトレーニングネットワークから推定されたスペクトルと比較する。 本分析では, 自明な位相, 拡散過程が多様体内部の分布に適合する多様体被覆位相, スコアが多様体に直交し, すべての粒子がデータの支持に投影される連結位相の3つの異なる定性的位相が存在することを明らかにした。 この「労働の分割」は、生成的拡散モデルが、確率ベースモデルに悩まされる多様体過適合現象の影響を受けない理由について、内部分布と多様体幾何学が生成期間中に異なる時間点で生成されるため、エレガントな説明を与える。

In this paper, we investigate the latent geometry of generative diffusion models under the manifold hypothesis. To this purpose, we analyze the spectrum of eigenvalues (and singular values) of the Jacobian of the score function, whose discontinuities (gaps) reveal the presence and dimensionality of distinct sub-manifolds. Using a statistical physics approach, we derive the spectral distributions and formulas for the spectral gaps under several distributional assumptions and we compare these theoretical predictions with the spectra estimated from trained networks. Our analysis reveals the existence of three distinct qualitative phases during the generative process: a trivial phase; a manifold coverage phase where the diffusion process fits the distribution internal to the manifold; a consolidation phase where the score becomes orthogonal to the manifold and all particles are projected on the support of the data. This `division of labor' between different timescales provides an elegant explanation on why generative diffusion models are not affected by the manifold overfitting phenomenon that plagues likelihood-based models, since the internal distribution and the manifold geometry are produced at different time points during generation.
翻訳日:2024-11-01 12:20:15 公開日:2024-10-16
# 様相に基づく微分可能な構造学習

Likelihood-based Differentiable Structure Learning ( http://arxiv.org/abs/2410.06163v1 )

ライセンス: Link先を確認
Chang Deng, Kevin Bello, Pradeep Ravikumar, Bryon Aragam, (参考訳) 有向非巡回グラフ(DAG)の微分可能構造学習への既存のアプローチは、非巡回性制約付き最適化問題の大域的最小化が真のDAGを特定することを保証するために、強い識別可能性仮定に依存している。 さらに、オプティマイザが損失関数の望ましくないアーティファクトを活用できることを実証的に観察している。 複数の大域最小化器を持つ一般確率下での微分可能非周期制約プログラムの挙動を解析し、これらの問題を説明し、改善する。 確率を慎重に正則化することにより、同定可能なパラメトリゼーションが存在しない場合でも、マルコフ同値類におけるスパースモデルを特定することができる。 まず、ガウスのケースを詳細に研究し、確率の正則化がいかにしてスパースモデルを特定するスコアを定義するかを示す。 忠実さを仮定すると、マルコフ同値類も回復する。 これらの結果は、同じ主張が成り立つ一般的なモデルや可能性に一般化される。 これらの理論的結果は実証的に検証され、これを標準勾配に基づく最適化を用いてどのように行うかを示し、一般的なモデルと損失の下での微分可能な構造学習の道を開く。

Existing approaches to differentiable structure learning of directed acyclic graphs (DAGs) rely on strong identifiability assumptions in order to guarantee that global minimizers of the acyclicity-constrained optimization problem identifies the true DAG. Moreover, it has been observed empirically that the optimizer may exploit undesirable artifacts in the loss function. We explain and remedy these issues by studying the behavior of differentiable acyclicity-constrained programs under general likelihoods with multiple global minimizers. By carefully regularizing the likelihood, it is possible to identify the sparsest model in the Markov equivalence class, even in the absence of an identifiable parametrization. We first study the Gaussian case in detail, showing how proper regularization of the likelihood defines a score that identifies the sparsest model. Assuming faithfulness, it also recovers the Markov equivalence class. These results are then generalized to general models and likelihoods, where the same claims hold. These theoretical results are validated empirically, showing how this can be done using standard gradient-based optimizers, thus paving the way for differentiable structure learning under general models and losses.
翻訳日:2024-11-01 10:50:51 公開日:2024-10-16
# 様相に基づく微分可能な構造学習

Likelihood-based Differentiable Structure Learning ( http://arxiv.org/abs/2410.06163v2 )

ライセンス: Link先を確認
Chang Deng, Kevin Bello, Pradeep Ravikumar, Bryon Aragam, (参考訳) 有向非巡回グラフ(DAG)の微分可能構造学習への既存のアプローチは、非巡回性制約付き最適化問題の大域的最小化が真のDAGを特定することを保証するために、強い識別可能性仮定に依存している。 さらに、オプティマイザが損失関数の望ましくないアーティファクトを活用できることを実証的に観察している。 複数の大域最小化器を持つ一般確率下での微分可能非周期制約プログラムの挙動を解析し、これらの問題を説明し、改善する。 確率を慎重に正則化することにより、同定可能なパラメトリゼーションが存在しない場合でも、マルコフ同値類におけるスパースモデルを特定することができる。 まず、ガウスのケースを詳細に研究し、確率の正則化がいかにしてスパースモデルを特定するスコアを定義するかを示す。 忠実さを仮定すると、マルコフ同値類も回復する。 これらの結果は、同じ主張が成り立つ一般的なモデルや可能性に一般化される。 これらの理論的結果は実証的に検証され、これを標準勾配に基づく最適化を用いてどのように行うかを示し、一般的なモデルと損失の下での微分可能な構造学習の道を開く。

Existing approaches to differentiable structure learning of directed acyclic graphs (DAGs) rely on strong identifiability assumptions in order to guarantee that global minimizers of the acyclicity-constrained optimization problem identifies the true DAG. Moreover, it has been observed empirically that the optimizer may exploit undesirable artifacts in the loss function. We explain and remedy these issues by studying the behavior of differentiable acyclicity-constrained programs under general likelihoods with multiple global minimizers. By carefully regularizing the likelihood, it is possible to identify the sparsest model in the Markov equivalence class, even in the absence of an identifiable parametrization. We first study the Gaussian case in detail, showing how proper regularization of the likelihood defines a score that identifies the sparsest model. Assuming faithfulness, it also recovers the Markov equivalence class. These results are then generalized to general models and likelihoods, where the same claims hold. These theoretical results are validated empirically, showing how this can be done using standard gradient-based optimizers, thus paving the way for differentiable structure learning under general models and losses.
翻訳日:2024-11-01 10:50:51 公開日:2024-10-16
# BroadWay: テキストからビデオへの生成モデルをトレーニング不要の方法で強化する

BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way ( http://arxiv.org/abs/2410.06241v1 )

ライセンス: Link先を確認
Jiazi Bu, Pengyang Ling, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang, (参考訳) 便利なビジュアル生成を提供するテキスト・ツー・ビデオ(T2V)生成モデルは近年注目を集めている。 その大きな可能性にもかかわらず、生成されたビデオは、構造的不確実性、時間的不整合、動きの欠如など、アーティファクトを提示する可能性がある。 本研究では,異なるブロックにまたがる時間的注意マップの不一致と時間的不整合の発生との相関関係を同定した。 さらに、時間的注意マップに含まれるエネルギーは、生成されたビデオの運動振幅の大きさと直接関係していることがわかった。 これらの観測結果に基づいてBroadWayを提案する。BroadWayは、追加のパラメータやメモリ増設、サンプリング時間を導入することなく、テキスト・ビデオ生成の品質を向上するためのトレーニング不要な手法である。 具体的には、BroadWayは2つの主要コンポーネントで構成されています。 1) 時間的自己指導は, 様々なデコーダブロック間の時間的注意マップ間の差異を低減し, 生成ビデオの構造的妥当性と時間的一貫性を向上させる。 2) フーリエに基づく運動強調は, 地図のエネルギーを増幅することにより, 運動の大きさと豊かさを高める。 大規模な実験により、BroadWayはテキスト・ビデオ・ジェネレーションの質を大幅に改善し、追加コストは無視できることがわかった。

The text-to-video (T2V) generation models, offering convenient visual creation, have recently garnered increasing attention. Despite their substantial potential, the generated videos may present artifacts, including structural implausibility, temporal inconsistency, and a lack of motion, often resulting in near-static video. In this work, we have identified a correlation between the disparity of temporal attention maps across different blocks and the occurrence of temporal inconsistencies. Additionally, we have observed that the energy contained within the temporal attention maps is directly related to the magnitude of motion amplitude in the generated videos. Based on these observations, we present BroadWay, a training-free method to improve the quality of text-to-video generation without introducing additional parameters, augmenting memory or sampling time. Specifically, BroadWay is composed of two principal components: 1) Temporal Self-Guidance improves the structural plausibility and temporal consistency of generated videos by reducing the disparity between the temporal attention maps across various decoder blocks. 2) Fourier-based Motion Enhancement enhances the magnitude and richness of motion by amplifying the energy of the map. Extensive experiments demonstrate that BroadWay significantly improves the quality of text-to-video generation with negligible additional cost.
翻訳日:2024-11-01 10:21:03 公開日:2024-10-16
# BroadWay: テキストからビデオへの生成モデルをトレーニング不要の方法で強化する

BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way ( http://arxiv.org/abs/2410.06241v2 )

ライセンス: Link先を確認
Jiazi Bu, Pengyang Ling, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang, (参考訳) 便利なビジュアル生成を提供するテキスト・ツー・ビデオ(T2V)生成モデルは近年注目を集めている。 その大きな可能性にもかかわらず、生成されたビデオは、構造的不確実性、時間的不整合、動きの欠如など、アーティファクトを提示する可能性がある。 本研究では,異なるブロックにまたがる時間的注意マップの不一致と時間的不整合の発生との相関関係を同定した。 さらに、時間的注意マップに含まれるエネルギーは、生成されたビデオの運動振幅の大きさと直接関係していることがわかった。 これらの観測結果に基づいてBroadWayを提案する。BroadWayは、追加のパラメータやメモリ増設、サンプリング時間を導入することなく、テキスト・ビデオ生成の品質を向上するためのトレーニング不要な手法である。 具体的には、BroadWayは2つの主要コンポーネントで構成されています。 1) 時間的自己指導は, 様々なデコーダブロック間の時間的注意マップ間の差異を低減し, 生成ビデオの構造的妥当性と時間的一貫性を向上させる。 2) フーリエに基づく運動強調は, 地図のエネルギーを増幅することにより, 運動の大きさと豊かさを高める。 大規模な実験により、BroadWayはテキスト・ビデオ・ジェネレーションの質を大幅に改善し、追加コストは無視できることがわかった。

The text-to-video (T2V) generation models, offering convenient visual creation, have recently garnered increasing attention. Despite their substantial potential, the generated videos may present artifacts, including structural implausibility, temporal inconsistency, and a lack of motion, often resulting in near-static video. In this work, we have identified a correlation between the disparity of temporal attention maps across different blocks and the occurrence of temporal inconsistencies. Additionally, we have observed that the energy contained within the temporal attention maps is directly related to the magnitude of motion amplitude in the generated videos. Based on these observations, we present BroadWay, a training-free method to improve the quality of text-to-video generation without introducing additional parameters, augmenting memory or sampling time. Specifically, BroadWay is composed of two principal components: 1) Temporal Self-Guidance improves the structural plausibility and temporal consistency of generated videos by reducing the disparity between the temporal attention maps across various decoder blocks. 2) Fourier-based Motion Enhancement enhances the magnitude and richness of motion by amplifying the energy of the map. Extensive experiments demonstrate that BroadWay significantly improves the quality of text-to-video generation with negligible additional cost.
翻訳日:2024-11-01 10:21:03 公開日:2024-10-16
# RLHFの精度パラドックス:より良いリワードモデルがより良い言語モデルを得ることができない場合

The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models ( http://arxiv.org/abs/2410.06554v1 )

ライセンス: Link先を確認
Yanjun Chen, Dawei Zhu, Yirong Sun, Xinghao Chen, Wei Zhang, Xiaoyu Shen, (参考訳) 人間のフィードバックからの強化学習は、言語モデルと人間の期待を一致させることで、自然言語処理を大幅に強化する。 このアライメントにおける重要な要素は、トレーニング中に使用される報酬モデルの強さである。 本研究は、強い報酬モデルがより良い言語モデルに必然的に繋がるかどうかを考察する。 本稿では、QA-FEEDBACKデータセットとLongformerに基づく報酬モデルを用いて、関連性、事実性、完全性に関する実験を通して、驚くべきパラドックスを発見した。 このことは、より強力な報酬モデルが常により良い言語モデルにつながるという広く信じられている信念に挑戦し、モデルパフォーマンスを駆動する重要な要因と、最も適切な報酬モデルを選択する方法について、将来の研究のための新たな道を開く。 コードと詳細は[https://github.com/EIT-NLP/AccuracyParadox-RLHF](https://github.com/EIT-NLP/AccuracyParadox-RLHF]で確認できる。

Reinforcement Learning from Human Feedback significantly enhances Natural Language Processing by aligning language models with human expectations. A critical factor in this alignment is the strength of reward models used during training. This study explores whether stronger reward models invariably lead to better language models. In this paper, through experiments on relevance, factuality, and completeness tasks using the QA-FEEDBACK dataset and reward models based on Longformer, we uncover a surprising paradox: language models trained with moderately accurate reward models outperform those guided by highly accurate ones. This challenges the widely held belief that stronger reward models always lead to better language models, and opens up new avenues for future research into the key factors driving model performance and how to choose the most suitable reward models. Code and additional details are available at [https://github.com/EIT-NLP/AccuracyParadox-RLHF](https://github.com/EIT-NLP/AccuracyParadox-RLHF).
翻訳日:2024-11-01 04:59:08 公開日:2024-10-16
# RLHFの精度パラドックス:より良いリワードモデルがより良い言語モデルを得ることができない場合

The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models ( http://arxiv.org/abs/2410.06554v2 )

ライセンス: Link先を確認
Yanjun Chen, Dawei Zhu, Yirong Sun, Xinghao Chen, Wei Zhang, Xiaoyu Shen, (参考訳) 人間のフィードバックからの強化学習は、言語モデルと人間の期待を一致させることで、自然言語処理を大幅に強化する。 このアライメントにおける重要な要素は、トレーニング中に使用される報酬モデルの強さである。 本研究は、強い報酬モデルがより良い言語モデルに必然的に繋がるかどうかを考察する。 本稿では、QA-FEEDBACKデータセットとLongformerに基づく報酬モデルを用いて、関連性、事実性、完全性に関する実験を通して、驚くべきパラドックスを発見した。 このことは、より強力な報酬モデルが常により良い言語モデルにつながるという広く信じられている信念に挑戦し、モデルパフォーマンスを駆動する重要な要因と、最も適切な報酬モデルを選択する方法について、将来の研究のための新たな道を開く。 コードと詳細はhttps://github.com/EIT-NLP/AccuracyParadox-RLHFで確認できる。

Reinforcement Learning from Human Feedback significantly enhances Natural Language Processing by aligning language models with human expectations. A critical factor in this alignment is the strength of reward models used during training. This study explores whether stronger reward models invariably lead to better language models. In this paper, through experiments on relevance, factuality, and completeness tasks using the QA-FEEDBACK dataset and reward models based on Longformer, we uncover a surprising paradox: language models trained with moderately accurate reward models outperform those guided by highly accurate ones. This challenges the widely held belief that stronger reward models always lead to better language models, and opens up new avenues for future research into the key factors driving model performance and how to choose the most suitable reward models. Code and additional details are available at https://github.com/EIT-NLP/AccuracyParadox-RLHF.
翻訳日:2024-11-01 04:59:08 公開日:2024-10-16
# Seeker: LLMベースのマルチエージェントアプローチによるコードでの例外処理の強化

Seeker: Enhancing Exception Handling in Code with LLM-based Multi-Agent Approach ( http://arxiv.org/abs/2410.06949v1 )

ライセンス: Link先を確認
Xuanming Zhang, Yuxuan Chen, Yuan Yuan, Minlie Huang, (参考訳) 現実世界のソフトウェア開発では、不適切な例外処理がコードの堅牢性と信頼性に重大な影響を与えます。 例外処理メカニズムでは、開発者は高い標準に従って例外を検出し、キャプチャし、管理する必要があるが、多くの開発者はこれらのタスクに苦労し、脆弱なコードを生み出している。 この問題はオープンソースプロジェクトで特に顕著であり、ソフトウェアエコシステム全体の品質に影響を与えます。 この課題に対処するために、コードの例外処理を改善するために、大規模言語モデル(LLM)の使用について検討する。 広範に分析した結果,フラジル符号の非感度検出,例外型の不正確なキャプチャ,歪んだハンドリング解の3つの問題が明らかになった。 これらの問題は現実世界のリポジトリに広まっており、堅牢な例外処理のプラクティスは見過ごされ、誤った扱いをされることがしばしばあることを示唆している。 そこで我々は,例外処理のエキスパート開発戦略に触発されたマルチエージェントフレームワークであるSeekerを提案する。 Seeker は Scanner, Detector, Predator, Ranker, Handler というエージェントを使用して,例外の検出,キャプチャ,解決をより効果的に行う。 我々の研究は、LCMを活用して例外処理のプラクティスを強化する最初の体系的な研究であり、将来のコード信頼性向上のための貴重な洞察を提供する。

In real world software development, improper or missing exception handling can severely impact the robustness and reliability of code. Exception handling mechanisms require developers to detect, capture, and manage exceptions according to high standards, but many developers struggle with these tasks, leading to fragile code. This problem is particularly evident in open source projects and impacts the overall quality of the software ecosystem. To address this challenge, we explore the use of large language models (LLMs) to improve exception handling in code. Through extensive analysis, we identify three key issues: Insensitive Detection of Fragile Code, Inaccurate Capture of Exception Types, and Distorted Handling Solutions. These problems are widespread across real world repositories, suggesting that robust exception handling practices are often overlooked or mishandled. In response, we propose Seeker, a multi agent framework inspired by expert developer strategies for exception handling. Seeker uses agents: Scanner, Detector, Predator, Ranker, and Handler to assist LLMs in detecting, capturing, and resolving exceptions more effectively. Our work is the first systematic study on leveraging LLMs to enhance exception handling practices, providing valuable insights for future improvements in code reliability.
翻訳日:2024-10-31 23:27:23 公開日:2024-10-16
# Seeker: LLMベースのマルチエージェントアプローチによるコードでの例外処理の強化

Seeker: Enhancing Exception Handling in Code with LLM-based Multi-Agent Approach ( http://arxiv.org/abs/2410.06949v2 )

ライセンス: Link先を確認
Xuanming Zhang, Yuxuan Chen, Yuan Yuan, Minlie Huang, (参考訳) 現実世界のソフトウェア開発では、不適切な例外処理がコードの堅牢性と信頼性に重大な影響を与えます。 例外処理メカニズムでは、開発者は高い標準に従って例外を検出し、キャプチャし、管理する必要があるが、多くの開発者はこれらのタスクに苦労し、脆弱なコードを生み出している。 この問題はオープンソースプロジェクトで特に顕著であり、ソフトウェアエコシステム全体の品質に影響を与えます。 この課題に対処するために、コードの例外処理を改善するために、大規模言語モデル(LLM)の使用について検討する。 広範に分析した結果,フラジル符号の非感度検出,例外型の不正確なキャプチャ,歪んだハンドリング解の3つの問題が明らかになった。 これらの問題は現実世界のリポジトリに広まっており、堅牢な例外処理のプラクティスは見過ごされ、誤った扱いをされることがしばしばあることを示唆している。 そこで我々は,例外処理のエキスパート開発戦略に触発されたマルチエージェントフレームワークであるSeekerを提案する。 Seeker は Scanner, Detector, Predator, Ranker, Handler というエージェントを使用して,例外の検出,キャプチャ,解決をより効果的に行う。 我々の研究は、LCMを活用して例外処理のプラクティスを強化する最初の体系的な研究であり、将来のコード信頼性向上のための貴重な洞察を提供する。

In real world software development, improper or missing exception handling can severely impact the robustness and reliability of code. Exception handling mechanisms require developers to detect, capture, and manage exceptions according to high standards, but many developers struggle with these tasks, leading to fragile code. This problem is particularly evident in open source projects and impacts the overall quality of the software ecosystem. To address this challenge, we explore the use of large language models (LLMs) to improve exception handling in code. Through extensive analysis, we identify three key issues: Insensitive Detection of Fragile Code, Inaccurate Capture of Exception Types, and Distorted Handling Solutions. These problems are widespread across real world repositories, suggesting that robust exception handling practices are often overlooked or mishandled. In response, we propose Seeker, a multi agent framework inspired by expert developer strategies for exception handling. Seeker uses agents: Scanner, Detector, Predator, Ranker, and Handler to assist LLMs in detecting, capturing, and resolving exceptions more effectively. Our work is the first systematic study on leveraging LLMs to enhance exception handling practices, providing valuable insights for future improvements in code reliability.
翻訳日:2024-10-31 23:27:23 公開日:2024-10-16
# 目標指向決定過程における妄想の同定と対応

Identifying and Addressing Delusions for Target-Directed Decision-Making ( http://arxiv.org/abs/2410.07096v1 )

ライセンス: Link先を確認
Mingde Zhao, Tristan Sylvain, Doina Precup, Yoshua Bengio, (参考訳) 我々は,意思決定時計画において目標を導出する目標指向エージェントに興味を持ち,その行動の指導と評価時の一般化の促進を図っている。 これらのエージェントの不適切な訓練は妄想を招きかねない: エージェントはターゲットについて誤った信念を抱き、それは適切に拒否できないため、望ましくない行動につながり、アウト・オブ・ディストリビューションの一般化を損なう。 直感的な例を慎重に制御した環境で利用し,その原因を解明し,異なる種類の妄想を識別する。 我々は、ターゲット指向のRLエージェントを訓練するための主流アプローチであるHendsight relabelingによって訓練されたエージェントに対して、妄想がどのように対処できるかを実証する。 提案手法の有効性を実証的に検証し, 妄想行動の補正とアウト・オブ・ディストリビューションの一般化の改善を行った。

We are interested in target-directed agents, which produce targets during decision-time planning, to guide their behaviors and achieve better generalization during evaluation. Improper training of these agents can result in delusions: the agent may come to hold false beliefs about the targets, which cannot be properly rejected, leading to unwanted behaviors and damaging out-of-distribution generalization. We identify different types of delusions by using intuitive examples in carefully controlled environments, and investigate their causes. We demonstrate how delusions can be addressed for agents trained by hindsight relabeling, a mainstream approach in for training target-directed RL agents. We validate empirically the effectiveness of the proposed solutions in correcting delusional behaviors and improving out-of-distribution generalization.
翻訳日:2024-10-31 22:27:10 公開日:2024-10-16
# 目標指向決定過程における妄想の同定と対応

Identifying and Addressing Delusions for Target-Directed Decision-Making ( http://arxiv.org/abs/2410.07096v2 )

ライセンス: Link先を確認
Mingde Zhao, Tristan Sylvain, Doina Precup, Yoshua Bengio, (参考訳) 我々は,意思決定時計画において目標を導出する目標指向エージェントに興味を持ち,その行動の指導と評価時の一般化の促進を図っている。 これらのエージェントの不適切な訓練は妄想を招きかねない: エージェントはターゲットについて誤った信念を抱き、それは適切に拒否できないため、望ましくない行動につながり、アウト・オブ・ディストリビューションの一般化を損なう。 直感的な例を慎重に制御した環境で利用し,その原因を解明し,異なる種類の妄想を識別する。 我々は、ターゲット指向のRLエージェントを訓練するための主流アプローチであるHendsight relabelingによって訓練されたエージェントに対して、妄想がどのように対処できるかを実証する。 提案手法の有効性を実証的に検証し, 妄想行動の補正とアウト・オブ・ディストリビューションの一般化の改善を行った。

We are interested in target-directed agents, which produce targets during decision-time planning, to guide their behaviors and achieve better generalization during evaluation. Improper training of these agents can result in delusions: the agent may come to hold false beliefs about the targets, which cannot be properly rejected, leading to unwanted behaviors and damaging out-of-distribution generalization. We identify different types of delusions by using intuitive examples in carefully controlled environments, and investigate their causes. We demonstrate how delusions can be addressed for agents trained by hindsight relabeling, a mainstream approach in for training target-directed RL agents. We validate empirically the effectiveness of the proposed solutions in correcting delusional behaviors and improving out-of-distribution generalization.
翻訳日:2024-10-31 22:27:10 公開日:2024-10-16
# 目標指向決定過程における妄想の同定と対応

Identifying and Addressing Delusions for Target-Directed Decision-Making ( http://arxiv.org/abs/2410.07096v3 )

ライセンス: Link先を確認
Mingde Zhao, Tristan Sylvain, Doina Precup, Yoshua Bengio, (参考訳) 我々は,意思決定時計画において目標を導出する目標指向エージェントに興味を持ち,その行動の指導と評価時の一般化の促進を図っている。 これらのエージェントの不適切な訓練は妄想を招きかねない: エージェントはターゲットについて誤った信念を抱き、それは適切に拒否できないため、望ましくない行動につながり、アウト・オブ・ディストリビューションの一般化を損なう。 直感的な例を慎重に制御した環境で利用し,その原因を解明し,異なる種類の妄想を識別する。 我々は、ターゲット指向のRLエージェントを訓練するための主流アプローチであるHendsight relabelingによって訓練されたエージェントに対して、妄想がどのように対処できるかを実証する。 提案手法の有効性を実証的に検証し, 妄想行動の補正とアウト・オブ・ディストリビューションの一般化の改善を行った。

We are interested in target-directed agents, which produce targets during decision-time planning, to guide their behaviors and achieve better generalization during evaluation. Improper training of these agents can result in delusions: the agent may come to hold false beliefs about the targets, which cannot be properly rejected, leading to unwanted behaviors and damaging out-of-distribution generalization. We identify different types of delusions by using intuitive examples in carefully controlled environments, and investigate their causes. We demonstrate how delusions can be addressed for agents trained by hindsight relabeling, a mainstream approach in for training target-directed RL agents. We validate empirically the effectiveness of the proposed solutions in correcting delusional behaviors and improving out-of-distribution generalization.
翻訳日:2024-10-31 22:27:10 公開日:2024-10-16
# 目標指向決定過程における妄想の同定と対応

Identifying and Addressing Delusions for Target-Directed Decision-Making ( http://arxiv.org/abs/2410.07096v4 )

ライセンス: Link先を確認
Mingde Zhao, Tristan Sylvain, Doina Precup, Yoshua Bengio, (参考訳) ターゲット指向エージェントは、自己生成ターゲットを使用して、その振る舞いをより一般化するためにガイドする。 これらの薬剤は、問題のある標的を盲目的に追跡する傾向があり、その結果、より一層の一般化と安全災害をもたらす。 これらの行動は、訓練に関する不適切な設計から起因した妄想の結果であることを示す:エージェントは、自然に特定の目標について誤った信念を持つようになるかもしれない。 制御環境における直感的な例を通して異なる種類の妄想を識別し,その原因と緩和について検討する。 これらの知見により、エージェントが先制的かつ自律的に妄想に対処する方法を実証する。 提案手法の有効性を実証的に検証し,妄想行動の補正とアウト・オブ・ディストリビューションの一般化の改善を図る。

Target-directed agents utilize self-generated targets, to guide their behaviors for better generalization. These agents are prone to blindly chasing problematic targets, resulting in worse generalization and safety catastrophes. We show that these behaviors can be results of delusions, stemming from improper designs around training: the agent may naturally come to hold false beliefs about certain targets. We identify different types of delusions via intuitive examples in controlled environments, and investigate their causes and mitigations. With the insights, we demonstrate how we can make agents address delusions preemptively and autonomously. We validate empirically the effectiveness of the proposed strategies in correcting delusional behaviors and improving out-of-distribution generalization.
翻訳日:2024-10-31 22:27:10 公開日:2024-10-16
# 自由を破りたい! 社会的階層を持つマルチエージェント環境におけるLDMの反社会的行動と説得能力

I Want to Break Free! Anti-Social Behavior and Persuasion Ability of LLMs in Multi-Agent Settings with Social Hierarchy ( http://arxiv.org/abs/2410.07109v1 )

ライセンス: Link先を確認
Gian Maria Campedelli, Nicolò Penzo, Massimo Stefan, Roberto Dessì, Marco Guerini, Bruno Lepri, Jacopo Staiano, (参考訳) 大規模言語モデル(LLM)に基づくエージェントは、ますます自律的になり、互いに自由に相互作用するようになり、それらの相互作用を研究することは、創発的な現象や潜在的なリスクを予測するために重要である。 スタンフォード刑務所実験(Stanford Prison Experiment)からインスピレーションを得て, 厳密な社会的階層を特徴とする文脈において, LLMエージェントの相互作用パターンを研究することによって, この研究の行方に貢献する。 我々は、特定の目的を達成するために(つまり、追加のヤードタイムを得るか、刑務所から脱出するか)ガードと囚人エージェントを含むシミュレートされたシナリオにおける、説得と反社会的行動の2つの種類の現象を具体的に研究する。 5つのLLMにまたがる合計2000の機械機械間会話に200の実験シナリオを活用することで、注目すべき発見の集合を提供する。 まず、パワーダイナミクスが動作しているマルチエージェント環境での会話において、いくつかのモデルが一貫して失敗する様子を文書化します。 そして, 良好な相互作用を達成できるモデルについて, エージェントの反社会的行動に対する無視的な影響を伴いながら, エージェントが主に説得力に影響を及ぼすように設定した目標がどう影響するかを実証的に示す。 第3に、エージェントのペルソナ、特に警備員のパーソナが、囚人から説得を成功させる可能性と反社会的行動の出現を両立させる方法について強調する。 第4に、特定の個人性を明示的に促すことなく、エージェントの役割を割り当てることによって、反社会的行動が出現することを示す。 これらの結果は、対話型LLMエージェントの開発や、その社会的影響に関する議論に影響を及ぼす。

As Large Language Model (LLM)-based agents become increasingly autonomous and will more freely interact with each other, studying interactions between them becomes crucial to anticipate emergent phenomena and potential risks. Drawing inspiration from the widely popular Stanford Prison Experiment, we contribute to this line of research by studying interaction patterns of LLM agents in a context characterized by strict social hierarchy. We do so by specifically studying two types of phenomena: persuasion and anti-social behavior in simulated scenarios involving a guard and a prisoner agent who seeks to achieve a specific goal (i.e., obtaining additional yard time or escape from prison). Leveraging 200 experimental scenarios for a total of 2,000 machine-machine conversations across five different popular LLMs, we provide a set of noteworthy findings. We first document how some models consistently fail in carrying out a conversation in our multi-agent setup where power dynamics are at play. Then, for the models that were able to engage in successful interactions, we empirically show how the goal that an agent is set to achieve impacts primarily its persuasiveness, while having a negligible effect with respect to the agent's anti-social behavior. Third, we highlight how agents' personas, and particularly the guard's personality, drive both the likelihood of successful persuasion from the prisoner and the emergence of anti-social behaviors. Fourth, we show that even without explicitly prompting for specific personalities, anti-social behavior emerges by simply assigning agents' roles. These results bear implications for the development of interactive LLM agents as well as the debate on their societal impact.
翻訳日:2024-10-31 22:27:10 公開日:2024-10-16
# 自由を破りたい! 階層型マルチエージェント環境におけるLCMの説得と反社会的行動

I Want to Break Free! Persuasion and Anti-Social Behavior of LLMs in Multi-Agent Settings with Social Hierarchy ( http://arxiv.org/abs/2410.07109v2 )

ライセンス: Link先を確認
Gian Maria Campedelli, Nicolò Penzo, Massimo Stefan, Roberto Dessì, Marco Guerini, Bruno Lepri, Jacopo Staiano, (参考訳) 大規模言語モデル(LLM)に基づくエージェントは、ますます自律的になり、互いに自由に相互作用するようになり、それらの相互作用を研究することは、創発的な現象や潜在的なリスクを予測するために重要である。 スタンフォード刑務所実験(Stanford Prison Experiment)からインスピレーションを得て, 厳密な社会的階層を特徴とする文脈において, LLMエージェントの相互作用パターンを研究することによって, この研究の行方に貢献する。 我々は、特定の目的を達成するために(つまり、追加のヤードタイムを得るか、刑務所から脱出するか)ガードと囚人エージェントを含むシミュレートされたシナリオにおける、説得と反社会的行動の2つの種類の現象を具体的に研究する。 5つのLLMにまたがる合計2000の機械機械間会話に200の実験シナリオを活用することで、注目すべき発見の集合を提供する。 まず、パワーダイナミクスが動作しているマルチエージェント環境での会話において、いくつかのモデルが一貫して失敗する様子を文書化します。 そして, 良好な相互作用を達成できるモデルについて, エージェントの反社会的行動に対する無視的な影響を伴いながら, エージェントが主に説得力に影響を及ぼすように設定した目標がどう影響するかを実証的に示す。 第3に、エージェントのペルソナ、特に警備員のパーソナが、囚人から説得を成功させる可能性と反社会的行動の出現を両立させる方法について強調する。 第4に、特定の個人性を明示的に促すことなく、エージェントの役割を割り当てることによって、反社会的行動が出現することを示す。 これらの結果は、対話型LLMエージェントの開発や、その社会的影響に関する議論に影響を及ぼす。

As Large Language Model (LLM)-based agents become increasingly autonomous and will more freely interact with each other, studying interactions between them becomes crucial to anticipate emergent phenomena and potential risks. Drawing inspiration from the widely popular Stanford Prison Experiment, we contribute to this line of research by studying interaction patterns of LLM agents in a context characterized by strict social hierarchy. We do so by specifically studying two types of phenomena: persuasion and anti-social behavior in simulated scenarios involving a guard and a prisoner agent who seeks to achieve a specific goal (i.e., obtaining additional yard time or escape from prison). Leveraging 200 experimental scenarios for a total of 2,000 machine-machine conversations across five different popular LLMs, we provide a set of noteworthy findings. We first document how some models consistently fail in carrying out a conversation in our multi-agent setup where power dynamics are at play. Then, for the models that were able to engage in successful interactions, we empirically show how the goal that an agent is set to achieve impacts primarily its persuasiveness, while having a negligible effect with respect to the agent's anti-social behavior. Third, we highlight how agents' personas, and particularly the guard's personality, drive both the likelihood of successful persuasion from the prisoner and the emergence of anti-social behaviors. Fourth, we show that even without explicitly prompting for specific personalities, anti-social behavior emerges by simply assigning agents' roles. These results bear implications for the development of interactive LLM agents as well as the debate on their societal impact.
翻訳日:2024-10-31 22:27:10 公開日:2024-10-16
# 大規模言語モデルにおける精神障害検出

Mental Disorders Detection in the Era of Large Language Models ( http://arxiv.org/abs/2410.07129v1 )

ライセンス: Link先を確認
Gleb Kuzmin, Petr Strepetov, Maksim Stankevich, Ivan Smirnov, Artem Shelmanov, (参考訳) 本稿では,従来の機械学習手法,エンコーダベースモデル,および大規模言語モデル(LLM)がうつ病や不安を検知するタスクに与える影響を比較検討する。 5つのデータセットが検討され、それぞれがフォーマットが異なることと、対象の病理クラスを定義するために使用される方法が検討された。 我々は、言語的特徴に基づくAutoMLモデル、BERTのようなエンコーダベースのトランスフォーマーのバリエーション、そして病理分類モデルとして最先端のLCMを試験した。 その結果,LLMは従来の手法,特に学習例がテキストの長さやジャンルによって大きく異なるノイズや小さなデータセットよりも優れていた。 しかし、精神言語学的特徴とエンコーダに基づくモデルは、臨床的に確認されたうつ病の個人からテキストで訓練された場合、言語モデルに匹敵するパフォーマンスを達成でき、標的とする臨床応用におけるその可能性を強調している。

This paper compares the effectiveness of traditional machine learning methods, encoder-based models, and large language models (LLMs) on the task of detecting depression and anxiety. Five datasets were considered, each differing in format and the method used to define the target pathology class. We tested AutoML models based on linguistic features, several variations of encoder-based Transformers such as BERT, and state-of-the-art LLMs as pathology classification models. The results demonstrated that LLMs outperform traditional methods, particularly on noisy and small datasets where training examples vary significantly in text length and genre. However, psycholinguistic features and encoder-based models can achieve performance comparable to language models when trained on texts from individuals with clinically confirmed depression, highlighting their potential effectiveness in targeted clinical applications.
翻訳日:2024-10-31 22:06:43 公開日:2024-10-16
# 大規模言語モデルにおける精神障害検出

Mental Disorders Detection in the Era of Large Language Models ( http://arxiv.org/abs/2410.07129v2 )

ライセンス: Link先を確認
Gleb Kuzmin, Petr Strepetov, Maksim Stankevich, Artem Shelmanov, Ivan Smirnov, (参考訳) 本稿では,従来の機械学習手法,エンコーダベースモデル,および大規模言語モデル(LLM)がうつ病や不安を検知するタスクに与える影響を比較検討する。 5つのデータセットが検討され、それぞれがフォーマットが異なることと、対象の病理クラスを定義するために使用される方法が検討された。 我々は、言語的特徴に基づくAutoMLモデル、BERTのようなエンコーダベースのトランスフォーマーのバリエーション、そして病理分類モデルとして最先端のLCMを試験した。 その結果,LLMは従来の手法,特に学習例がテキストの長さやジャンルによって大きく異なるノイズや小さなデータセットよりも優れていた。 しかし、精神言語学的特徴とエンコーダに基づくモデルは、臨床的に確認されたうつ病の個人からテキストで訓練された場合、言語モデルに匹敵するパフォーマンスを達成でき、標的とする臨床応用におけるその可能性を強調している。

This paper compares the effectiveness of traditional machine learning methods, encoder-based models, and large language models (LLMs) on the task of detecting depression and anxiety. Five datasets were considered, each differing in format and the method used to define the target pathology class. We tested AutoML models based on linguistic features, several variations of encoder-based Transformers such as BERT, and state-of-the-art LLMs as pathology classification models. The results demonstrated that LLMs outperform traditional methods, particularly on noisy and small datasets where training examples vary significantly in text length and genre. However, psycholinguistic features and encoder-based models can achieve performance comparable to language models when trained on texts from individuals with clinically confirmed depression, highlighting their potential effectiveness in targeted clinical applications.
翻訳日:2024-10-31 22:06:43 公開日:2024-10-16
# モダリティ積分率を持つ大規模視覚言語モデルにおけるクロスモーダルアライメントの解読

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate ( http://arxiv.org/abs/2410.07167v1 )

ライセンス: Link先を確認
Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu, (参考訳) 本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。 大規模プレトレーニングは,LVLMの製作において重要な役割を担っている。 本研究では,Large Language Models (LLMs) の事前学習指標として,損失,パープレキシティ,コンテキスト内評価結果がよく用いられるが,これらの指標は,十分に訓練された LLM と新しいモダリティの整合性を示す指標として少ないことを観察した。 適切なメトリクスが欠如しているため、重要な事前学習段階におけるLVLMの研究は、トレーニングデータの選択や効率的なモジュール設計など、非常に妨げられている。 本稿では,モーダル間分布距離から見た事前学習品質の評価と,モーダル積分率(Modality Integration Rate, MIR)について述べる。 1) 事前学習品質を表すためのtextbf{Effective} は、教師付き微調整後のベンチマーク性能と正の関係を示す。 2) 異なるトレーニング/評価データに対する \textbf{Robust} 。 3) トレーニング設定とアーキテクチャ選択にまたがる \textbf{Generalize}。 我々は、MIRの有効性を探るため、一連の事前学習実験を行い、MIRがトレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に有意であることを示す満足な結果を観察し、より優れた事前学習結果を得る。 我々は、MIRが有能なLVLMの構築に有用な指標になり、異なる領域におけるモダリティアライメントに関する次の研究を刺激することを期待している。 私たちのコードは以下の通りです。

We present the Modality Integration Rate (MIR), an effective, robust, and generalized metric to indicate the multi-modal pre-training quality of Large Vision Language Models (LVLMs). Large-scale pre-training plays a critical role in building capable LVLMs, while evaluating its training quality without the costly supervised fine-tuning stage is under-explored. Loss, perplexity, and in-context evaluation results are commonly used pre-training metrics for Large Language Models (LLMs), while we observed that these metrics are less indicative when aligning a well-trained LLM with a new modality. Due to the lack of proper metrics, the research of LVLMs in the critical pre-training stage is hindered greatly, including the training data choice, efficient module design, etc. In this paper, we propose evaluating the pre-training quality from the inter-modal distribution distance perspective and present MIR, the Modality Integration Rate, which is 1) \textbf{Effective} to represent the pre-training quality and show a positive relation with the benchmark performance after supervised fine-tuning. 2) \textbf{Robust} toward different training/evaluation data. 3) \textbf{Generalize} across training configurations and architecture choices. We conduct a series of pre-training experiments to explore the effectiveness of MIR and observe satisfactory results that MIR is indicative about training data selection, training strategy schedule, and model architecture design to get better pre-training results. We hope MIR could be a helpful metric for building capable LVLMs and inspire the following research about modality alignment in different areas. Our code is at: https://github.com/shikiw/Modality-Integration-Rate.
翻訳日:2024-10-31 21:46:48 公開日:2024-10-16
# モダリティ積分率を持つ大規模視覚言語モデルにおけるクロスモーダルアライメントの解読

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate ( http://arxiv.org/abs/2410.07167v2 )

ライセンス: Link先を確認
Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu, (参考訳) 本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。 大規模プレトレーニングは,LVLMの製作において重要な役割を担っている。 本研究では,Large Language Models (LLMs) の事前学習指標として,損失,パープレキシティ,コンテキスト内評価結果がよく用いられるが,これらの指標は,十分に訓練された LLM と新しいモダリティの整合性を示す指標として少ないことを観察した。 適切なメトリクスが欠如しているため、重要な事前学習段階におけるLVLMの研究は、トレーニングデータの選択や効率的なモジュール設計など、非常に妨げられている。 本稿では,モーダル間分布距離から見た事前学習品質の評価と,モーダル積分率(Modality Integration Rate, MIR)について述べる。 1) 事前学習品質を表すためのtextbf{Effective} は、教師付き微調整後のベンチマーク性能と正の関係を示す。 2) 異なるトレーニング/評価データに対する \textbf{Robust} 。 3) トレーニング設定とアーキテクチャ選択にまたがる \textbf{Generalize}。 我々は、MIRの有効性を探るため、一連の事前学習実験を行い、MIRがトレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に有意であることを示す満足な結果を観察し、より優れた事前学習結果を得る。 我々は、MIRが有能なLVLMの構築に有用な指標になり、異なる領域におけるモダリティアライメントに関する次の研究を刺激することを期待している。 私たちのコードは以下の通りです。

We present the Modality Integration Rate (MIR), an effective, robust, and generalized metric to indicate the multi-modal pre-training quality of Large Vision Language Models (LVLMs). Large-scale pre-training plays a critical role in building capable LVLMs, while evaluating its training quality without the costly supervised fine-tuning stage is under-explored. Loss, perplexity, and in-context evaluation results are commonly used pre-training metrics for Large Language Models (LLMs), while we observed that these metrics are less indicative when aligning a well-trained LLM with a new modality. Due to the lack of proper metrics, the research of LVLMs in the critical pre-training stage is hindered greatly, including the training data choice, efficient module design, etc. In this paper, we propose evaluating the pre-training quality from the inter-modal distribution distance perspective and present MIR, the Modality Integration Rate, which is 1) \textbf{Effective} to represent the pre-training quality and show a positive relation with the benchmark performance after supervised fine-tuning. 2) \textbf{Robust} toward different training/evaluation data. 3) \textbf{Generalize} across training configurations and architecture choices. We conduct a series of pre-training experiments to explore the effectiveness of MIR and observe satisfactory results that MIR is indicative about training data selection, training strategy schedule, and model architecture design to get better pre-training results. We hope MIR could be a helpful metric for building capable LVLMs and inspire the following research about modality alignment in different areas. Our code is at: https://github.com/shikiw/Modality-Integration-Rate.
翻訳日:2024-10-31 21:46:48 公開日:2024-10-16
# デルタICM:学習画像圧縮のためのデルタ関数を用いたエントロピーモデリング

Delta-ICM: Entropy Modeling with Delta Function for Learned Image Compression ( http://arxiv.org/abs/2410.07669v1 )

ライセンス: Link先を確認
Takahiro Shindo, Taiju Watanabe, Yui Tatsumi, Hiroshi Watanabe, (参考訳) コンピュータビジョンの研究が進むにつれて、画像符号化(ICM)の重要性が高まっている。 ICMは画像認識モデルに画像の利用を追求する重要な研究分野であり、効率的な画像伝送と記憶を容易にする。 認識モデルの需要は一般大衆の間で急速に増加しており、その性能は改善を続けている。 これらのニーズを満たすために、消費者デバイスとITM技術を使用したクラウドAIの間で画像データを交換することは、可能な解決策の1つである。 ICMでは、様々な画像圧縮手法がLearned Image Compression (lic)を採用している。 licは遅延特徴のビットレートを推定するエントロピーモデルを含み、このモデルの設計はその性能に大きく影響する。 通常、lic法は、潜在特徴量の分布は正規分布に従うと仮定する。 この仮定は人間の視覚を意図した画像の圧縮に有効である。 しかし、正規分布に基づくエントロピーモデルを用いることは、正確な復号を必要とする画像部品の制限のため、ICMでは非効率である。 そこで本研究では,デルタ関数に基づく確率分布を用いたデルタICMを提案する。 潜在特徴の分布としてデルタ分布を仮定すると、機械に不要な画像部分のエントロピーが減少する。 既存の手法と同様、正規分布に基づくエントロピーモデルを用いて残りの部分を圧縮する。 デルタICMは、デルタ分布に基づくエントロピーモデルと、各潜伏特徴に対する正規分布に基づくエントロピーモデルを選択する。 本手法は,マシンを対象とした画像圧縮性能において,既存のICM法よりも優れる。

Image Coding for Machines (ICM) is becoming more important as research in computer vision progresses. ICM is a vital research field that pursues the use of images for image recognition models, facilitating efficient image transmission and storage. The demand for recognition models is growing rapidly among the general public, and their performance continues to improve. To meet these needs, exchanging image data between consumer devices and cloud AI using ICM technology could be one possible solution. In ICM, various image compression methods have adopted Learned Image Compression (LIC). LIC includes an entropy model for estimating the bitrate of latent features, and the design of this model significantly affects its performance. Typically, LIC methods assume that the distribution of latent features follows a normal distribution. This assumption is effective for compressing images intended for human vision. However, employing an entropy model based on normal distribution is inefficient in ICM due to the limitation of image parts that require precise decoding. To address this, we propose Delta-ICM, which uses a probability distribution based on a delta function. Assuming the delta distribution as a distribution of latent features reduces the entropy of image portions unnecessary for machines. We compress the remaining portions using an entropy model based on normal distribution, similar to existing methods. Delta-ICM selects between the entropy model based on the delta distribution and the one based on the normal distribution for each latent feature. Our method outperforms existing ICM methods in image compression performance aimed at machines.
翻訳日:2024-10-31 15:46:26 公開日:2024-10-16
# デルタICM:学習画像圧縮のためのデルタ関数を用いたエントロピーモデリング

Delta-ICM: Entropy Modeling with Delta Function for Learned Image Compression ( http://arxiv.org/abs/2410.07669v2 )

ライセンス: Link先を確認
Takahiro Shindo, Taiju Watanabe, Yui Tatsumi, Hiroshi Watanabe, (参考訳) コンピュータビジョンの研究が進むにつれて、画像符号化(ICM)の重要性が高まっている。 ICMは画像認識モデルに画像の利用を追求する重要な研究分野であり、効率的な画像伝送と記憶を容易にする。 認識モデルの需要は一般大衆の間で急速に増加しており、その性能は改善を続けている。 これらのニーズを満たすために、消費者デバイスとITM技術を使用したクラウドAIの間で画像データを交換することは、可能な解決策の1つである。 ICMでは、様々な画像圧縮手法がLearned Image Compression (lic)を採用している。 licは遅延特徴のビットレートを推定するエントロピーモデルを含み、このモデルの設計はその性能に大きく影響する。 通常、lic法は、潜在特徴量の分布は正規分布に従うと仮定する。 この仮定は人間の視覚を意図した画像の圧縮に有効である。 しかし、正規分布に基づくエントロピーモデルを用いることは、正確な復号を必要とする画像部品の制限のため、ICMでは非効率である。 そこで本研究では,デルタ関数に基づく確率分布を用いたデルタICMを提案する。 潜在特徴の分布としてデルタ分布を仮定すると、機械に不要な画像部分のエントロピーが減少する。 既存の手法と同様、正規分布に基づくエントロピーモデルを用いて残りの部分を圧縮する。 デルタICMは、デルタ分布に基づくエントロピーモデルと、各潜伏特徴に対する正規分布に基づくエントロピーモデルを選択する。 本手法は,マシンを対象とした画像圧縮性能において,既存のICM法よりも優れる。

Image Coding for Machines (ICM) is becoming more important as research in computer vision progresses. ICM is a vital research field that pursues the use of images for image recognition models, facilitating efficient image transmission and storage. The demand for recognition models is growing rapidly among the general public, and their performance continues to improve. To meet these needs, exchanging image data between consumer devices and cloud AI using ICM technology could be one possible solution. In ICM, various image compression methods have adopted Learned Image Compression (LIC). LIC includes an entropy model for estimating the bitrate of latent features, and the design of this model significantly affects its performance. Typically, LIC methods assume that the distribution of latent features follows a normal distribution. This assumption is effective for compressing images intended for human vision. However, employing an entropy model based on normal distribution is inefficient in ICM due to the limitation of image parts that require precise decoding. To address this, we propose Delta-ICM, which uses a probability distribution based on a delta function. Assuming the delta distribution as a distribution of latent features reduces the entropy of image portions unnecessary for machines. We compress the remaining portions using an entropy model based on normal distribution, similar to existing methods. Delta-ICM selects between the entropy model based on the delta distribution and the one based on the normal distribution for each latent feature. Our method outperforms existing ICM methods in image compression performance aimed at machines.
翻訳日:2024-10-31 15:36:27 公開日:2024-10-16
# 量子エンタングルメントの分類と定量化におけるガロア対称性

Galois Symmetries in the Classification and Quantification of Quantum Entanglement ( http://arxiv.org/abs/2410.08370v1 )

ライセンス: Link先を確認
Bilal Benzimoun, Abdelali Sajia, (参考訳) 量子力学の基盤である量子絡み合いは、特に多粒子系において、分類が困難である。 ここでは、ガロア群、多項式対称性を規定する代数構造との深い関係を明らかにすることによって、絡み合い分類の新しい解釈を示す。 このアプローチは、絡み合った量子状態と多項式根の間の隠れた幾何学的関係を明らかにするだけでなく、多量子対称状態における絡み合いを定量化する手法も導入している。 ガロア対称性の構造におけるGHZ, W, および分離状態の分類をフレキシブルにすることで、その絡み合い特性において以前に認識されていなかった階層を確立する。 この研究はガロア理論の数学的エレガンスを、量子力学の複雑さ、量子コンピューティングと情報理論の進歩への道を開くことで橋渡しする。

Quantum entanglement, a cornerstone of quantum mechanics, remains challenging to classify, particularly in multipartite systems. Here, we present a new interpretation of entanglement classification by revealing a profound connection to Galois groups, the algebraic structures governing polynomial symmetries. This approach not only uncovers hidden geometric relationships between entangled quantum states and polynomial roots but also introduces a method for quantifying entanglement in multi-qubit symmetric states. By reframing the classification of GHZ, W, and separable states within the structure of Galois symmetries, we establish a previously unrecognized hierarchy in their entanglement properties. This work bridges the mathematical elegance of Galois theory with the complexities of quantum mechanics, opening pathways for advances in quantum computing and information theory.
翻訳日:2024-10-31 03:46:24 公開日:2024-10-16
# 量子エンタングルメントの分類と定量化におけるガロア対称性

Galois Symmetries in the Classification and Quantification of Quantum Entanglement ( http://arxiv.org/abs/2410.08370v2 )

ライセンス: Link先を確認
Bilal Benzimoun, Abdelali Sajia, (参考訳) 量子力学の基盤である量子絡み合いは、特に多粒子系において、分類が困難である。 ここでは、ガロア群、多項式対称性を規定する代数構造との深い関係を明らかにすることによって、絡み合い分類の新しい解釈を示す。 このアプローチは、絡み合った量子状態と多項式根の間の隠れた幾何学的関係を明らかにするだけでなく、多量子対称状態における絡み合いを定量化する手法も導入している。 ガロア対称性の構造におけるGHZ, W, および分離状態の分類をフレキシブルにすることで、その絡み合い特性において以前に認識されていなかった階層を確立する。 この研究はガロア理論の数学的エレガンスを、量子力学の複雑さ、量子コンピューティングと情報理論の進歩への道を開くことで橋渡しする。

Quantum entanglement, a cornerstone of quantum mechanics, remains challenging to classify, particularly in multipartite systems. Here, we present a new interpretation of entanglement classification by revealing a profound connection to Galois groups, the algebraic structures governing polynomial symmetries. This approach not only uncovers hidden geometric relationships between entangled quantum states and polynomial roots but also introduces a method for quantifying entanglement in multi-qubit symmetric states. By reframing the classification of GHZ, W, and separable states within the structure of Galois symmetries, we establish a previously unrecognized hierarchy in their entanglement properties. This work bridges the mathematical elegance of Galois theory with the complexities of quantum mechanics, opening pathways for advances in quantum computing and information theory.
翻訳日:2024-10-31 03:46:24 公開日:2024-10-16
# CLIPにおける解釈および制御可能なテキスト埋め込みのための意味的トークン再重み付け

Semantic Token Reweighting for Interpretable and Controllable Text Embeddings in CLIP ( http://arxiv.org/abs/2410.08469v1 )

ライセンス: Link先を確認
Eunji Kim, Kyuhong Shim, Simyung Chang, Sungroh Yoon, (参考訳) CLIPのようなVision-Language Models(VLM)内のテキストエンコーダは、画像と共有された埋め込み空間へのテキスト入力の翻訳において重要な役割を果たす。 文脈によって文中の異なるテキスト要素の異なる重要性にもかかわらず、テキスト埋め込み構築における重要性の変動を考慮する努力は欠如している。 本稿では, セマンティックトケン再重み付けのフレームワークを提案し, 可制御性を組み込んだ解釈可能なテキスト埋め込み (SToRI) を構築する。 SToRIは、文脈的重要性に基づいて意味的要素を差分重み付けすることで、CLIPのテキストエンコーディングプロセスを洗練し、データ駆動の洞察やユーザの好みに応答する強調に対するより細かい制御を可能にする。 SToRIの有効性は、ユーザの好みに合わせて、スクリーンショット画像の分類と画像検索に関する総合的な実験を通じて実証される。

A text encoder within Vision-Language Models (VLMs) like CLIP plays a crucial role in translating textual input into an embedding space shared with images, thereby facilitating the interpretative analysis of vision tasks through natural language. Despite the varying significance of different textual elements within a sentence depending on the context, efforts to account for variation of importance in constructing text embeddings have been lacking. We propose a framework of Semantic Token Reweighting to build Interpretable text embeddings (SToRI), which incorporates controllability as well. SToRI refines the text encoding process in CLIP by differentially weighting semantic elements based on contextual importance, enabling finer control over emphasis responsive to data-driven insights and user preferences. The efficacy of SToRI is demonstrated through comprehensive experiments on few-shot image classification and image retrieval tailored to user preferences.
翻訳日:2024-10-31 03:06:36 公開日:2024-10-16
# CLIPにおける解釈および制御可能なテキスト埋め込みのための意味的トークン再重み付け

Semantic Token Reweighting for Interpretable and Controllable Text Embeddings in CLIP ( http://arxiv.org/abs/2410.08469v2 )

ライセンス: Link先を確認
Eunji Kim, Kyuhong Shim, Simyung Chang, Sungroh Yoon, (参考訳) CLIPのようなVision-Language Models(VLM)内のテキストエンコーダは、画像と共有された埋め込み空間へのテキスト入力の翻訳において重要な役割を果たす。 文脈によって文中の異なるテキスト要素の異なる重要性にもかかわらず、テキスト埋め込み構築における重要性の変動を考慮する努力は欠如している。 本稿では, セマンティックトケン再重み付けのフレームワークを提案し, 可制御性を組み込んだ解釈可能なテキスト埋め込み (SToRI) を構築する。 SToRIは、文脈的重要性に基づいて意味的要素を差分重み付けすることで、CLIPのテキストエンコーディングプロセスを洗練し、データ駆動の洞察やユーザの好みに応答する強調に対するより細かい制御を可能にする。 SToRIの有効性は、ユーザの好みに合わせて、スクリーンショット画像の分類と画像検索に関する総合的な実験を通じて実証される。

A text encoder within Vision-Language Models (VLMs) like CLIP plays a crucial role in translating textual input into an embedding space shared with images, thereby facilitating the interpretative analysis of vision tasks through natural language. Despite the varying significance of different textual elements within a sentence depending on the context, efforts to account for variation of importance in constructing text embeddings have been lacking. We propose a framework of Semantic Token Reweighting to build Interpretable text embeddings (SToRI), which incorporates controllability as well. SToRI refines the text encoding process in CLIP by differentially weighting semantic elements based on contextual importance, enabling finer control over emphasis responsive to data-driven insights and user preferences. The efficacy of SToRI is demonstrated through comprehensive experiments on few-shot image classification and image retrieval tailored to user preferences.
翻訳日:2024-10-31 03:06:36 公開日:2024-10-16
# 優先正規化流れ

Preferential Normalizing Flows ( http://arxiv.org/abs/2410.08710v1 )

ライセンス: Link先を確認
Petrus Mikkola, Luigi Acerbi, Arto Klami, (参考訳) ノイズの多い判断によって専門家から高次元の確率分布を除外することは、非常に難しいが、事前の推論や報酬モデリングのような多くの応用には有用である。 本稿では,専門家の信念密度を,比較やランキングなどの優先的な質問のみに基づく正規化フローとして抽出する手法を提案する。 これは原則として任意にフレキシブルな密度を導出することを可能にするが、流れの推定は、実際に困難となる確率質量の崩壊やばらつきの挑戦に影響を受けやすい。 本稿では,フローに対する新しい関数前処理を導入することでこの問題に対処する。これは決定理論の議論によって動機づけられたものであり,その信念密度を関数空間の最大値として推定できることを実証的に示す。 本手法は,実世界のデータセット上での汎用大規模言語モデルの事前の信念を含む,シミュレーション専門家の多変量信念の密度を抽出することによって実証する。

Eliciting a high-dimensional probability distribution from an expert via noisy judgments is notoriously challenging, yet useful for many applications, such as prior elicitation and reward modeling. We introduce a method for eliciting the expert's belief density as a normalizing flow based solely on preferential questions such as comparing or ranking alternatives. This allows eliciting in principle arbitrarily flexible densities, but flow estimation is susceptible to the challenge of collapsing or diverging probability mass that makes it difficult in practice. We tackle this problem by introducing a novel functional prior for the flow, motivated by a decision-theoretic argument, and show empirically that the belief density can be inferred as the function-space maximum a posteriori estimate. We demonstrate our method by eliciting multivariate belief densities of simulated experts, including the prior belief of a general-purpose large language model over a real-world dataset.
翻訳日:2024-10-30 22:25:15 公開日:2024-10-16
# 優先正規化流れ

Preferential Normalizing Flows ( http://arxiv.org/abs/2410.08710v2 )

ライセンス: Link先を確認
Petrus Mikkola, Luigi Acerbi, Arto Klami, (参考訳) ノイズの多い判断によって専門家から高次元の確率分布を除外することは、非常に難しいが、事前の推論や報酬モデリングのような多くの応用には有用である。 本稿では,専門家の信念密度を,比較やランキングなどの優先的な質問のみに基づく正規化フローとして抽出する手法を提案する。 これは原則として任意にフレキシブルな密度を導出することを可能にするが、流れの推定は、実際に困難となる確率質量の崩壊やばらつきの挑戦に影響を受けやすい。 本稿では,フローに対する新しい関数前処理を導入することでこの問題に対処する。これは決定理論の議論によって動機づけられたものであり,その信念密度を関数空間の最大値として推定できることを実証的に示す。 本手法は,実世界のデータセット上での汎用大規模言語モデルの事前の信念を含む,シミュレーション専門家の多変量信念の密度を抽出することによって実証する。

Eliciting a high-dimensional probability distribution from an expert via noisy judgments is notoriously challenging, yet useful for many applications, such as prior elicitation and reward modeling. We introduce a method for eliciting the expert's belief density as a normalizing flow based solely on preferential questions such as comparing or ranking alternatives. This allows eliciting in principle arbitrarily flexible densities, but flow estimation is susceptible to the challenge of collapsing or diverging probability mass that makes it difficult in practice. We tackle this problem by introducing a novel functional prior for the flow, motivated by a decision-theoretic argument, and show empirically that the belief density can be inferred as the function-space maximum a posteriori estimate. We demonstrate our method by eliciting multivariate belief densities of simulated experts, including the prior belief of a general-purpose large language model over a real-world dataset.
翻訳日:2024-10-30 22:25:15 公開日:2024-10-16
# $\textit{lucie}$: UCI Machine Learning RepositoryからデータセットをロードするPythonパッケージの改善

$\textit{lucie}$: An Improved Python Package for Loading Datasets from the UCI Machine Learning Repository ( http://arxiv.org/abs/2410.09119v1 )

ライセンス: Link先を確認
Kenneth Ge, Phuc Nguyen, Ramy Arnaout, (参考訳) カリフォルニア大学Irvine (UCI) Machine Learning (ML) Repository (UCIMLR)は、何百ものハイインパクトデータセットをホストする、最も人気のあるデータセットリポジトリの1つとして一貫して引用されている。 しかし、トップ250の28.4%を含むかなりの部分は、UCIMLRのウェブサイトで提供され推奨されている$\textit{ucimlrepo}$パッケージからインポートすることはできない。 代わりに、.zipファイルとしてホストされ、追加のアドホック処理なしでインポートが難しい非標準フォーマットを含んでいる。 この問題に対処するために、$\textit{lucie}$ -- $\underline{l}oad$ $\underline{U}niversity$ $\underline{C}alifornia$ $\underline{I}rvine$ $\underline{e}xamples$ -- データフォーマットを自動的に決定し、以前は利用できなかったデータセットの多くをインポートするユーティリティを提示します。 $\textit{lucie}$は、最も人気のあるデータセットのトップ100を使用して設計され、次の130でベンチマークされ、95.4%、$\textit{ucimlrepo}$は73.1%の成功率となった。 $\textit{lucie}$は98%のコードカバレッジを持つPyPI上のPythonパッケージとして利用できる。

The University of California--Irvine (UCI) Machine Learning (ML) Repository (UCIMLR) is consistently cited as one of the most popular dataset repositories, hosting hundreds of high-impact datasets. However, a significant portion, including 28.4% of the top 250, cannot be imported via the $\textit{ucimlrepo}$ package that is provided and recommended by the UCIMLR website. Instead, they are hosted as .zip files, containing nonstandard formats that are difficult to import without additional ad hoc processing. To address this issue, here we present $\textit{lucie}$ -- $\underline{l}oad$ $\underline{U}niversity$ $\underline{C}alifornia$ $\underline{I}rvine$ $\underline{e}xamples$ -- a utility that automatically determines the data format and imports many of these previously non-importable datasets, while preserving as much of a tabular data structure as possible. $\textit{lucie}$ was designed using the top 100 most popular datasets and benchmarked on the next 130, where it resulted in a success rate of 95.4% vs. 73.1% for $\textit{ucimlrepo}$. $\textit{lucie}$ is available as a Python package on PyPI with 98% code coverage.
翻訳日:2024-10-30 16:13:24 公開日:2024-10-16
# $\textit{lucie}$: UCI Machine Learning RepositoryからデータセットをロードするPythonパッケージの改善

$\textit{lucie}$: An Improved Python Package for Loading Datasets from the UCI Machine Learning Repository ( http://arxiv.org/abs/2410.09119v2 )

ライセンス: Link先を確認
Kenneth Ge, Phuc Nguyen, Ramy Arnaout, (参考訳) カリフォルニア大学Irvine (UCI) Machine Learning (ML) Repository (UCIMLR)は、何百ものハイインパクトデータセットをホストする、最も人気のあるデータセットリポジトリの1つとして一貫して引用されている。 しかし、トップ250の28.4%を含むかなりの部分は、UCIMLRのウェブサイトで提供され推奨されている$\textit{ucimlrepo}$パッケージからインポートすることはできない。 代わりに、.zipファイルとしてホストされ、追加のアドホック処理なしでインポートが難しい非標準フォーマットを含んでいる。 この問題に対処するために、$\textit{lucie}$ -- $\underline{l}oad$ $\underline{U}niversity$ $\underline{C}alifornia$ $\underline{I}rvine$ $\underline{e}xamples$ -- データフォーマットを自動的に決定し、以前は利用できなかったデータセットの多くをインポートするユーティリティを提示します。 $\textit{lucie}$は、最も人気のあるデータセットのトップ100を使用して設計され、次の130でベンチマークされ、95.4%、$\textit{ucimlrepo}$は73.1%の成功率となった。 $\textit{lucie}$は98%のコードカバレッジを持つPyPI上のPythonパッケージとして利用できる。

The University of California--Irvine (UCI) Machine Learning (ML) Repository (UCIMLR) is consistently cited as one of the most popular dataset repositories, hosting hundreds of high-impact datasets. However, a significant portion, including 28.4% of the top 250, cannot be imported via the $\textit{ucimlrepo}$ package that is provided and recommended by the UCIMLR website. Instead, they are hosted as .zip files, containing nonstandard formats that are difficult to import without additional ad hoc processing. To address this issue, here we present $\textit{lucie}$ -- $\underline{l}oad$ $\underline{U}niversity$ $\underline{C}alifornia$ $\underline{I}rvine$ $\underline{e}xamples$ -- a utility that automatically determines the data format and imports many of these previously non-importable datasets, while preserving as much of a tabular data structure as possible. $\textit{lucie}$ was designed using the top 100 most popular datasets and benchmarked on the next 130, where it resulted in a success rate of 95.4% vs. 73.1% for $\textit{ucimlrepo}$. $\textit{lucie}$ is available as a Python package on PyPI with 98% code coverage.
翻訳日:2024-10-30 16:13:24 公開日:2024-10-16
# バックドアディフェンスの表層安全の解明・説明・緩和

Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defense ( http://arxiv.org/abs/2410.09838v1 )

ライセンス: Link先を確認
Rui Min, Zeyu Qin, Nevin L. Zhang, Li Shen, Minhao Cheng, (参考訳) バックドア攻撃は、攻撃者がバックドアトリガーでモデル予測を操作できるようにするため、ディープニューラルネットワーク(DNN)に重大な脅威となる。 これらの脆弱性に対処するため、様々なバックドアの浄化手法が提案されている。 通常、これらの浄化されたモデルは低い攻撃成功率(ASR)を示し、バックドア入力に耐性を持つ。 しかし、現行の安全浄化手法によって低いASRを達成することは、学習したバックドアの特徴を事前訓練段階から真に排除するだろうか? 本稿では, 現行のバックドア浄化法の浄化後ロバスト性について, 徹底的に検討することで, この問題に対する肯定的な回答を提供する。 本研究は, 極めて少数の有毒試料を用いて, 精製モデルをさらに微調整した場合でも, バックドア行動の迅速再学習に弱いことが判明した。 そこで本研究では,クエリベースのリアクティベーションアタック(QRA)を提案する。 後処理後の堅牢性を達成できなかったのは,バックドア接続経路に沿ったバックドアモデルから精製されたモデルの偏差が不十分であったためである。 ポストパーフィフィケーション後のロバスト性を改善するため,モデル更新によるバックドア接続経路のずれを緩和する簡易なチューニングディフェンスであるPath-Aware Minimization (PAM)を提案する。 広範囲な実験により,PAMは清浄後のロバスト性を良好に向上し,良好な清浄精度と低いASRを維持した。 我々の研究は、バックドア安全チューニングの有効性を理解するための新しい視点を提供し、モデルの安全性を忠実に評価することの重要性を強調します。

Backdoor attacks pose a significant threat to Deep Neural Networks (DNNs) as they allow attackers to manipulate model predictions with backdoor triggers. To address these security vulnerabilities, various backdoor purification methods have been proposed to purify compromised models. Typically, these purified models exhibit low Attack Success Rates (ASR), rendering them resistant to backdoored inputs. However, Does achieving a low ASR through current safety purification methods truly eliminate learned backdoor features from the pretraining phase? In this paper, we provide an affirmative answer to this question by thoroughly investigating the Post-Purification Robustness of current backdoor purification methods. We find that current safety purification methods are vulnerable to the rapid re-learning of backdoor behavior, even when further fine-tuning of purified models is performed using a very small number of poisoned samples. Based on this, we further propose the practical Query-based Reactivation Attack (QRA) which could effectively reactivate the backdoor by merely querying purified models. We find the failure to achieve satisfactory post-tuning robustness stems from the insufficient deviation of purified models from the backdoored model along the backdoor-connected path. To improve the post-purification robustness, we propose a straightforward tuning defense, Path-Aware Minimization (PAM), which promotes deviation along backdoor-connected paths with extra model updates. Extensive experiments demonstrate that PAM significantly improves post-purification robustness while maintaining a good clean accuracy and low ASR. Our work provides a new perspective on understanding the effectiveness of backdoor safety tuning and highlights the importance of faithfully assessing the model's safety.
翻訳日:2024-10-30 04:42:48 公開日:2024-10-16
# バックドアディフェンスの表層安全の解明・説明・緩和

Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defense ( http://arxiv.org/abs/2410.09838v2 )

ライセンス: Link先を確認
Rui Min, Zeyu Qin, Nevin L. Zhang, Li Shen, Minhao Cheng, (参考訳) バックドア攻撃は、攻撃者がバックドアトリガーでモデル予測を操作できるようにするため、ディープニューラルネットワーク(DNN)に重大な脅威となる。 これらの脆弱性に対処するため、様々なバックドアの浄化手法が提案されている。 通常、これらの浄化されたモデルは低い攻撃成功率(ASR)を示し、バックドア入力に耐性を持つ。 しかし、現行の安全浄化手法によって低いASRを達成することは、学習したバックドアの特徴を事前訓練段階から真に排除するだろうか? 本稿では, 現行のバックドア浄化法の浄化後ロバスト性について, 徹底的に検討することで, この問題に対する肯定的な回答を提供する。 本研究は, 極めて少数の有毒試料を用いて, 精製モデルをさらに微調整した場合でも, バックドア行動の迅速再学習に弱いことが判明した。 そこで本研究では,クエリベースのリアクティベーションアタック(QRA)を提案する。 本研究は, バックドア接続経路に沿ったバックドアモデルからの精製モデルの偏差が不十分であることから, 良好な浄化後堅牢性を達成できないことが示唆された。 ポストパーフィフィケーション後のロバスト性を改善するため,モデル更新によるバックドア接続経路のずれを緩和する簡易なチューニングディフェンスであるPath-Aware Minimization (PAM)を提案する。 広範囲な実験により,PAMは清浄後のロバスト性を良好に向上し,良好な清浄精度と低いASRを維持した。 我々の研究は、バックドア安全チューニングの有効性を理解するための新しい視点を提供し、モデルの安全性を忠実に評価することの重要性を強調します。

Backdoor attacks pose a significant threat to Deep Neural Networks (DNNs) as they allow attackers to manipulate model predictions with backdoor triggers. To address these security vulnerabilities, various backdoor purification methods have been proposed to purify compromised models. Typically, these purified models exhibit low Attack Success Rates (ASR), rendering them resistant to backdoored inputs. However, Does achieving a low ASR through current safety purification methods truly eliminate learned backdoor features from the pretraining phase? In this paper, we provide an affirmative answer to this question by thoroughly investigating the Post-Purification Robustness of current backdoor purification methods. We find that current safety purification methods are vulnerable to the rapid re-learning of backdoor behavior, even when further fine-tuning of purified models is performed using a very small number of poisoned samples. Based on this, we further propose the practical Query-based Reactivation Attack (QRA) which could effectively reactivate the backdoor by merely querying purified models. We find the failure to achieve satisfactory post-purification robustness stems from the insufficient deviation of purified models from the backdoored model along the backdoor-connected path. To improve the post-purification robustness, we propose a straightforward tuning defense, Path-Aware Minimization (PAM), which promotes deviation along backdoor-connected paths with extra model updates. Extensive experiments demonstrate that PAM significantly improves post-purification robustness while maintaining a good clean accuracy and low ASR. Our work provides a new perspective on understanding the effectiveness of backdoor safety tuning and highlights the importance of faithfully assessing the model's safety.
翻訳日:2024-10-30 04:42:48 公開日:2024-10-16
# InterMask: 協調型マスクモデルによる3次元ヒューマンインタラクション生成

InterMask: 3D Human Interaction Generation via Collaborative Masked Modelling ( http://arxiv.org/abs/2410.10010v1 )

ライセンス: Link先を確認
Muhammad Gohar Javed, Chuan Guo, Li Cheng, Xingyu Li, (参考訳) テキスト記述から現実的な3D人間と人間のインタラクションを生成することは、依然として困難な課題である。 拡散モデルに基づく既存のアプローチは、しばしば非自然で非現実的な結果を生み出す。 本研究では、離散空間における協調マスクモデルを用いて、人間のインタラクションを生成するための新しいフレームワークであるInterMaskを紹介する。 InterMaskはまずVQ-VAEを使用して、各モーションシーケンスを2次元の離散なモーショントークンマップに変換する。 従来の1D VQトークンマップとは異なり、細かな時空間の詳細を保存し、各トークン内の空間的認識を促進する。 この表現に基づいて、InterMaskは、2人の対話する個人のトークンを協調的にモデル化するために、生成的なマスク付きモデリングフレームワークを利用する。 これは、複雑な時空間相互依存性をキャプチャするために特別に設計されたトランスフォーマーアーキテクチャを利用することによって達成される。 トレーニング中は、両方の個人の動きトークンをランダムに隠蔽し、それらを予測することを学ぶ。 推論では、完全にマスクされたシーケンスから始めて、両方の個人のためのトークンを徐々に埋める。 運動表現の強化、専用のアーキテクチャ、効果的な学習戦略により、InterMaskは最先端の結果を達成し、高忠実で多様な人間の相互作用を生み出す。 従来の手法より優れており、InterHumanデータセットでは5.154$(5.535$ for in2IN)、InterXデータセットでは0.399$(5.207$ for InterGen)である。 さらに、InterMaskはモデルの再設計や微調整を必要とせずに、シームレスに反応生成をサポートする。

Generating realistic 3D human-human interactions from textual descriptions remains a challenging task. Existing approaches, typically based on diffusion models, often generate unnatural and unrealistic results. In this work, we introduce InterMask, a novel framework for generating human interactions using collaborative masked modeling in discrete space. InterMask first employs a VQ-VAE to transform each motion sequence into a 2D discrete motion token map. Unlike traditional 1D VQ token maps, it better preserves fine-grained spatio-temporal details and promotes spatial awareness within each token. Building on this representation, InterMask utilizes a generative masked modeling framework to collaboratively model the tokens of two interacting individuals. This is achieved by employing a transformer architecture specifically designed to capture complex spatio-temporal interdependencies. During training, it randomly masks the motion tokens of both individuals and learns to predict them. In inference, starting from fully masked sequences, it progressively fills in the tokens for both individuals. With its enhanced motion representation, dedicated architecture, and effective learning strategy, InterMask achieves state-of-the-art results, producing high-fidelity and diverse human interactions. It outperforms previous methods, achieving an FID of $5.154$ (vs $5.535$ for in2IN) on the InterHuman dataset and $0.399$ (vs $5.207$ for InterGen) on the InterX dataset. Additionally, InterMask seamlessly supports reaction generation without the need for model redesign or fine-tuning.
翻訳日:2024-10-30 03:43:37 公開日:2024-10-16
# InterMask: 協調型マスクモデルによる3次元ヒューマンインタラクション生成

InterMask: 3D Human Interaction Generation via Collaborative Masked Modelling ( http://arxiv.org/abs/2410.10010v2 )

ライセンス: Link先を確認
Muhammad Gohar Javed, Chuan Guo, Li Cheng, Xingyu Li, (参考訳) テキスト記述から現実的な3D人間と人間のインタラクションを生成することは、依然として困難な課題である。 拡散モデルに基づく既存のアプローチは、しばしば非自然で非現実的な結果を生み出す。 本研究では、離散空間における協調マスクモデルを用いて、人間のインタラクションを生成するための新しいフレームワークであるInterMaskを紹介する。 InterMaskはまずVQ-VAEを使用して、各モーションシーケンスを2次元の離散なモーショントークンマップに変換する。 従来の1D VQトークンマップとは異なり、細かな時空間の詳細を保存し、各トークン内の空間的認識を促進する。 この表現に基づいて、InterMaskは、2人の対話する個人のトークンを協調的にモデル化するために、生成的なマスク付きモデリングフレームワークを利用する。 これは、複雑な時空間相互依存性をキャプチャするために特別に設計されたトランスフォーマーアーキテクチャを利用することによって達成される。 トレーニング中は、両方の個人の動きトークンをランダムに隠蔽し、それらを予測することを学ぶ。 推論では、完全にマスクされたシーケンスから始めて、両方の個人のためのトークンを徐々に埋める。 運動表現の強化、専用のアーキテクチャ、効果的な学習戦略により、InterMaskは最先端の結果を達成し、高忠実で多様な人間の相互作用を生み出す。 従来の手法より優れており、InterHumanデータセットでは5.154$(5.535$ for in2IN)、InterXデータセットでは0.399$(5.207$ for InterGen)である。 さらに、InterMaskはモデルの再設計や微調整を必要とせずに、シームレスに反応生成をサポートする。

Generating realistic 3D human-human interactions from textual descriptions remains a challenging task. Existing approaches, typically based on diffusion models, often generate unnatural and unrealistic results. In this work, we introduce InterMask, a novel framework for generating human interactions using collaborative masked modeling in discrete space. InterMask first employs a VQ-VAE to transform each motion sequence into a 2D discrete motion token map. Unlike traditional 1D VQ token maps, it better preserves fine-grained spatio-temporal details and promotes spatial awareness within each token. Building on this representation, InterMask utilizes a generative masked modeling framework to collaboratively model the tokens of two interacting individuals. This is achieved by employing a transformer architecture specifically designed to capture complex spatio-temporal interdependencies. During training, it randomly masks the motion tokens of both individuals and learns to predict them. In inference, starting from fully masked sequences, it progressively fills in the tokens for both individuals. With its enhanced motion representation, dedicated architecture, and effective learning strategy, InterMask achieves state-of-the-art results, producing high-fidelity and diverse human interactions. It outperforms previous methods, achieving an FID of $5.154$ (vs $5.535$ for in2IN) on the InterHuman dataset and $0.399$ (vs $5.207$ for InterGen) on the InterX dataset. Additionally, InterMask seamlessly supports reaction generation without the need for model redesign or fine-tuning.
翻訳日:2024-10-30 03:43:37 公開日:2024-10-16
# グラフを超えて: 大規模言語モデルはハイパーグラフを補完できるか?

Beyond Graphs: Can Large Language Models Comprehend Hypergraphs? ( http://arxiv.org/abs/2410.10083v1 )

ライセンス: Link先を確認
Yifan Feng, Chengwu Yang, Xingliang Hou, Shaoyi Du, Shihui Ying, Zongze Wu, Yue Gao, (参考訳) NLGraphやGraphQAといった既存のベンチマークでは、実世界のデータに見られる高次相関を見越して、ペア関係を中心にグラフ上のLLMを評価している。 複雑な関係をモデル化できるハイパーグラフは、より堅牢なフレームワークを提供するが、まだLLMの文脈では過小評価されている。 LLM4Hypergraphは、8つの低次、5つの高次、および2つの同型タスクにまたがる21,500の問題を総合的にまとめた最初のベンチマークである。 GPT-4oを含む6つの著名なLCMを評価し、モデル強度と弱点の同定におけるベンチマークの有効性を実証した。 我々は7つのハイパーグラフ言語を導入し、高次推論を強化し、構造分類タスクにおける平均4%(最大9%)の性能改善を実現するHyper-BAGとHyper-COTという2つの新しい手法を導入している。 この研究は、ハイパーグラフ計算能力をLSMに統合するための基礎的なテストベッドを確立し、その理解を深める。

Existing benchmarks like NLGraph and GraphQA evaluate LLMs on graphs by focusing mainly on pairwise relationships, overlooking the high-order correlations found in real-world data. Hypergraphs, which can model complex beyond-pairwise relationships, offer a more robust framework but are still underexplored in the context of LLMs. To address this gap, we introduce LLM4Hypergraph, the first comprehensive benchmark comprising 21,500 problems across eight low-order, five high-order, and two isomorphism tasks, utilizing both synthetic and real-world hypergraphs from citation networks and protein structures. We evaluate six prominent LLMs, including GPT-4o, demonstrating our benchmark's effectiveness in identifying model strengths and weaknesses. Our specialized prompting framework incorporates seven hypergraph languages and introduces two novel techniques, Hyper-BAG and Hyper-COT, which enhance high-order reasoning and achieve an average 4% (up to 9%) performance improvement on structure classification tasks. This work establishes a foundational testbed for integrating hypergraph computational capabilities into LLMs, advancing their comprehension.
翻訳日:2024-10-30 03:14:03 公開日:2024-10-16
# グラフを超えて: 大規模言語モデルはハイパーグラフを補完できるか?

Beyond Graphs: Can Large Language Models Comprehend Hypergraphs? ( http://arxiv.org/abs/2410.10083v2 )

ライセンス: Link先を確認
Yifan Feng, Chengwu Yang, Xingliang Hou, Shaoyi Du, Shihui Ying, Zongze Wu, Yue Gao, (参考訳) NLGraphやGraphQAといった既存のベンチマークでは、実世界のデータに見られる高次相関を見越して、ペア関係を中心にグラフ上のLLMを評価している。 複雑な関係をモデル化できるハイパーグラフは、より堅牢なフレームワークを提供するが、まだLLMの文脈では過小評価されている。 LLM4Hypergraphは、8つの低次、5つの高次、および2つの同型タスクにまたがる21,500の問題を総合的にまとめた最初のベンチマークである。 GPT-4oを含む6つの著名なLCMを評価し、モデル強度と弱点の同定におけるベンチマークの有効性を実証した。 我々は7つのハイパーグラフ言語を導入し、高次推論を強化し、構造分類タスクにおける平均4%(最大9%)の性能改善を実現するHyper-BAGとHyper-COTという2つの新しい手法を導入している。 この研究は、ハイパーグラフ計算能力をLSMに統合するための基礎的なテストベッドを確立し、その理解を深める。 ソースコードはhttps://github.com/iMoonLab/LLM4Hypergraphにある。

Existing benchmarks like NLGraph and GraphQA evaluate LLMs on graphs by focusing mainly on pairwise relationships, overlooking the high-order correlations found in real-world data. Hypergraphs, which can model complex beyond-pairwise relationships, offer a more robust framework but are still underexplored in the context of LLMs. To address this gap, we introduce LLM4Hypergraph, the first comprehensive benchmark comprising 21,500 problems across eight low-order, five high-order, and two isomorphism tasks, utilizing both synthetic and real-world hypergraphs from citation networks and protein structures. We evaluate six prominent LLMs, including GPT-4o, demonstrating our benchmark's effectiveness in identifying model strengths and weaknesses. Our specialized prompting framework incorporates seven hypergraph languages and introduces two novel techniques, Hyper-BAG and Hyper-COT, which enhance high-order reasoning and achieve an average 4% (up to 9%) performance improvement on structure classification tasks. This work establishes a foundational testbed for integrating hypergraph computational capabilities into LLMs, advancing their comprehension. The source codes are at https://github.com/iMoonLab/LLM4Hypergraph.
翻訳日:2024-10-30 03:14:03 公開日:2024-10-16
# パーソナライズされたエキスパートの混合:ビジョンランゲージモデルのためのフェデレーション・プロンプト学習

Mixture of Experts Made Personalized: Federated Prompt Learning for Vision-Language Models ( http://arxiv.org/abs/2410.10114v1 )

ライセンス: Link先を確認
Jun Luo, Chen Chen, Shandong Wu, (参考訳) CLIPのような事前訓練されたビジョンランゲージモデル(VLM)のプロンプト学習は、さまざまな下流タスクにまたがる強力な適用性を示している。 この軽量なアプローチは、VLMをヘテロジニアスなシナリオに効果的に適応しようとする連邦学習(FL)研究者から、急速に注目を集めている。 しかし、現在のフェデレートされたプロンプト学習手法は、通常、従来のFLパラダイムに制限されており、参加するクライアントは通常、サーバから単一のグローバル集約モデルしかダウンロードできない。 フェデレートされた設定下でのフルサイズのモデルのトレーニングには適していますが、この作業では、このパラダイムは軽量なプロンプトには適していない、と論じます。 クライアントが複数の事前集約プロンプトを固定された非局所的な専門家としてダウンロードできるようにすることにより、適応プロンプトの個人化混合(pFedMoAP)を提案し、これは、専門家のレンズ(MoE)を通して迅速な学習プロセスをパーソナライズする新しいFLフレームワークである。 pFedMoAPは、ローカルおよびダウンロードされた非ローカルアダプティブプロンプトの専門家の恩恵を受けながら、クライアント上のローカルイメージデータとの整合性を改善するために強化されたテキスト機能を生成することを学ぶ、ローカルアテンションベースのゲーティングネットワークを実装している。 非ローカルの専門家は、サーバがメンテナンスするプールから疎結合に選択され、クライアント間の協調学習を促進する。 提案アルゴリズムを評価するために, 種々の異種フェデレーション設定下で, 9つのデータセットにまたがる広範囲な実験を行った。 その結果、pFedMoAPは最先端の代替手段を一貫して上回り、CLIPの迅速な学習をフェデレート学習パラダイム内でパーソナライズする効果が強調された。

Prompt learning for pre-trained Vision-Language Models (VLMs) like CLIP has demonstrated potent applicability across diverse downstream tasks. This lightweight approach has quickly gained traction from federated learning (FL) researchers who seek to efficiently adapt VLMs to heterogeneous scenarios. However, current federated prompt learning methods are habitually restricted to the traditional FL paradigm, where the participating clients are generally only allowed to download a single globally aggregated model from the server. While justifiable for training full-sized models under federated settings, in this work, we argue that this paradigm is ill-suited for lightweight prompts. By facilitating the clients to download multiple pre-aggregated prompts as fixed non-local experts, we propose Personalized Federated Mixture of Adaptive Prompts (pFedMoAP), a novel FL framework that personalizes the prompt learning process through the lens of Mixture of Experts (MoE). pFedMoAP implements a local attention-based gating network that learns to generate enhanced text features for better alignment with local image data on the client, benefiting from both local and downloaded non-local adaptive prompt experts. The non-local experts are sparsely selected from a server-maintained pool, fostering collaborative learning across clients. To evaluate the proposed algorithm, we conduct extensive experiments across 9 datasets under various heterogeneous federated settings. The results show that pFedMoAP consistently outperforms the state-of-the-art alternatives, underscoring its efficacy in personalizing prompt learning for CLIP within the federated learning paradigm.
翻訳日:2024-10-30 03:04:18 公開日:2024-10-16
# パーソナライズされたエキスパートの混合:ビジョンランゲージモデルのためのフェデレーション・プロンプト学習

Mixture of Experts Made Personalized: Federated Prompt Learning for Vision-Language Models ( http://arxiv.org/abs/2410.10114v2 )

ライセンス: Link先を確認
Jun Luo, Chen Chen, Shandong Wu, (参考訳) CLIPのような事前訓練されたビジョンランゲージモデル(VLM)のプロンプト学習は、さまざまな下流タスクにまたがる強力な適用性を示している。 この軽量なアプローチは、VLMをヘテロジニアスなシナリオに効果的に適応しようとする連邦学習(FL)研究者から、急速に注目を集めている。 しかし、現在のフェデレートされたプロンプト学習手法は、通常、従来のFLパラダイムに制限されており、参加するクライアントは通常、サーバから単一のグローバル集約モデルしかダウンロードできない。 フェデレートされた設定下でのフルサイズのモデルのトレーニングには適していますが、この作業では、このパラダイムは軽量なプロンプトには適していない、と論じます。 クライアントが複数の事前集約プロンプトを固定された非局所的な専門家としてダウンロードできるようにすることにより、適応プロンプトの個人化混合(pFedMoAP)を提案し、これは、専門家のレンズ(MoE)を通して迅速な学習プロセスをパーソナライズする新しいFLフレームワークである。 pFedMoAPは、ローカルおよびダウンロードされた非ローカルアダプティブプロンプトの専門家の恩恵を受けながら、クライアント上のローカルイメージデータとの整合性を改善するために強化されたテキスト機能を生成することを学ぶ、ローカルアテンションベースのゲーティングネットワークを実装している。 非ローカルの専門家は、サーバがメンテナンスするプールから疎結合に選択され、クライアント間の協調学習を促進する。 提案アルゴリズムを評価するために, 種々の異種フェデレーション設定下で, 9つのデータセットにまたがる広範囲な実験を行った。 その結果、pFedMoAPは最先端の代替手段を一貫して上回り、CLIPの迅速な学習をフェデレート学習パラダイム内でパーソナライズする効果が強調された。

Prompt learning for pre-trained Vision-Language Models (VLMs) like CLIP has demonstrated potent applicability across diverse downstream tasks. This lightweight approach has quickly gained traction from federated learning (FL) researchers who seek to efficiently adapt VLMs to heterogeneous scenarios. However, current federated prompt learning methods are habitually restricted to the traditional FL paradigm, where the participating clients are generally only allowed to download a single globally aggregated model from the server. While justifiable for training full-sized models under federated settings, in this work, we argue that this paradigm is ill-suited for lightweight prompts. By facilitating the clients to download multiple pre-aggregated prompts as fixed non-local experts, we propose Personalized Federated Mixture of Adaptive Prompts (pFedMoAP), a novel FL framework that personalizes the prompt learning process through the lens of Mixture of Experts (MoE). pFedMoAP implements a local attention-based gating network that learns to generate enhanced text features for better alignment with local image data on the client, benefiting from both local and downloaded non-local adaptive prompt experts. The non-local experts are sparsely selected from a server-maintained pool, fostering collaborative learning across clients. To evaluate the proposed algorithm, we conduct extensive experiments across 9 datasets under various heterogeneous federated settings. The results show that pFedMoAP consistently outperforms the state-of-the-art alternatives, underscoring its efficacy in personalizing prompt learning for CLIP within the federated learning paradigm.
翻訳日:2024-10-30 03:04:18 公開日:2024-10-16
# MuseTalk: リアルタイムな高品質なリップシンクロナイゼーション

MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting ( http://arxiv.org/abs/2410.10122v1 )

ライセンス: Link先を確認
Yue Zhang, Minhao Liu, Zhaokang Chen, Bin Wu, Yubin Zeng, Chao Zhan, Yingjie He, Junxin Huang, Wenjiang Zhou, (参考訳) 顔のダビングにおける高解像度、アイデンティティの整合性、正確な唇音声同期を実現することは、特にライブビデオストリーミングのようなリアルタイムアプリケーションにおいて、大きな課題となる。 変分オートエンコーダによって符号化された潜時空間でリップシンクターゲットを生成するMuseTalkを提案する。 具体的には、顔画像の下半分とそれ自身を低次元の潜在空間への参照として投影し、マルチスケールのU-Netを用いて様々なレベルで音声と視覚的特徴を融合させる。 さらに,学習中の新たなサンプリング手法を提案する。この手法では,ターゲットと密接に一致した頭部ポーズの参照画像を選択し,冗長な情報をフィルタリングすることで,正確な唇の動きに焦点を合わせることができる。 さらに,リップシンク損失のメカニズムを分析し,入力情報量との関係を明らかにする。 大規模な実験により、MuseTalkは視覚的忠実度において最新の最先端の手法を一貫して上回り、同等のリップシンク精度を達成している。 MuseTalkが256x256のオンラインフェースを30FPS以上でサポートし、起動遅延を無視できるので、リアルタイムアプリケーションへの道を開くことができる。

Achieving high-resolution, identity consistency, and accurate lip-speech synchronization in face visual dubbing presents significant challenges, particularly for real-time applications like live video streaming. We propose MuseTalk, which generates lip-sync targets in a latent space encoded by a Variational Autoencoder, enabling high-fidelity talking face video generation with efficient inference. Specifically, we project the occluded lower half of the face image and itself as an reference into a low-dimensional latent space and use a multi-scale U-Net to fuse audio and visual features at various levels. We further propose a novel sampling strategy during training, which selects reference images with head poses closely matching the target, allowing the model to focus on precise lip movement by filtering out redundant information. Additionally, we analyze the mechanism of lip-sync loss and reveal its relationship with input information volume. Extensive experiments show that MuseTalk consistently outperforms recent state-of-the-art methods in visual fidelity and achieves comparable lip-sync accuracy. As MuseTalk supports the online generation of face at 256x256 at more than 30 FPS with negligible starting latency, it paves the way for real-time applications.
翻訳日:2024-10-30 02:54:14 公開日:2024-10-16
# MuseTalk: リアルタイムな高品質なリップシンクロナイゼーション

MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting ( http://arxiv.org/abs/2410.10122v2 )

ライセンス: Link先を確認
Yue Zhang, Minhao Liu, Zhaokang Chen, Bin Wu, Yubin Zeng, Chao Zhan, Yingjie He, Junxin Huang, Wenjiang Zhou, (参考訳) 顔のダビングにおける高解像度、アイデンティティの整合性、正確な唇音声同期を実現することは、特にライブビデオストリーミングのようなリアルタイムアプリケーションにおいて、大きな課題となる。 変分オートエンコーダによって符号化された潜時空間でリップシンクターゲットを生成するMuseTalkを提案する。 具体的には、顔画像の下半分とそれ自身を低次元の潜在空間への参照として投影し、マルチスケールのU-Netを用いて様々なレベルで音声と視覚的特徴を融合させる。 さらに,学習中の新たなサンプリング手法を提案する。この手法では,ターゲットと密接に一致した頭部ポーズの参照画像を選択し,冗長な情報をフィルタリングすることで,正確な唇の動きに焦点を合わせることができる。 さらに,リップシンク損失のメカニズムを分析し,入力情報量との関係を明らかにする。 大規模な実験により、MuseTalkは視覚的忠実度において最新の最先端の手法を一貫して上回り、同等のリップシンク精度を達成している。 MuseTalkが256x256のオンラインフェースを30FPS以上でサポートし、起動遅延を無視できるので、リアルタイムアプリケーションへの道を開くことができる。

Achieving high-resolution, identity consistency, and accurate lip-speech synchronization in face visual dubbing presents significant challenges, particularly for real-time applications like live video streaming. We propose MuseTalk, which generates lip-sync targets in a latent space encoded by a Variational Autoencoder, enabling high-fidelity talking face video generation with efficient inference. Specifically, we project the occluded lower half of the face image and itself as an reference into a low-dimensional latent space and use a multi-scale U-Net to fuse audio and visual features at various levels. We further propose a novel sampling strategy during training, which selects reference images with head poses closely matching the target, allowing the model to focus on precise lip movement by filtering out redundant information. Additionally, we analyze the mechanism of lip-sync loss and reveal its relationship with input information volume. Extensive experiments show that MuseTalk consistently outperforms recent state-of-the-art methods in visual fidelity and achieves comparable lip-sync accuracy. As MuseTalk supports the online generation of face at 256x256 at more than 30 FPS with negligible starting latency, it paves the way for real-time applications.
翻訳日:2024-10-30 02:54:14 公開日:2024-10-16
# PIVOT-R:ロボットマニピュレーションのための原始駆動型ウェイポイント認識世界モデル

PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation ( http://arxiv.org/abs/2410.10394v1 )

ライセンス: Link先を確認
Kaidong Zhang, Pengzhen Ren, Bingqian Lin, Junfan Lin, Shikui Ma, Hang Xu, Xiaodan Liang, (参考訳) 言語誘導型ロボット操作は、様々な複雑な操作タスクを達成するために抽象的なユーザー指示に従うために、具体的エージェントを必要とする難しい作業である。 従来は命令と低レベルの実行可能動作の関係を明らかにすることなく、データに自明な適合を図ったが、これらのモデルは、転送可能な知識を得る代わりに、データのサージカルパターンを記憶する傾向があるため、動的環境の変化に対して脆弱である。 そこで本研究では,ロボット操作のためのPIVOT-R(PrIrmitive-driVen waypOinT-aware world model)を提案する。 具体的には、PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。 前者はプリミティブアクション解析とプリミティブ駆動のウェイポイント予測を行い、後者は低レベルアクションのデコードに焦点を当てる。 さらに,非同期階層型実行器 (AHE) を設計し,モデルの異なるモジュールに対して異なる実行周波数を使用できるようにし,計算冗長性を低減し,モデルの実行効率を向上させる。 私たちのPIVOT-Rは、SeaWaveベンチマークで最先端(SoTA)オープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。 さらに、同期実行されたPIVOT-Rと比較して、AHEによるPIVOT-Rの実行効率は28倍に向上し、性能は2.9%しか低下しない。 これらの結果は、我々のPIVOT-Rがロボット操作の性能と効率の両方を著しく改善できることを示す。

Language-guided robotic manipulation is a challenging task that requires an embodied agent to follow abstract user instructions to accomplish various complex manipulation tasks. Previous work trivially fitting the data without revealing the relation between instruction and low-level executable actions, these models are prone to memorizing the surficial pattern of the data instead of acquiring the transferable knowledge, and thus are fragile to dynamic environment changes. To address this issue, we propose a PrIrmitive-driVen waypOinT-aware world model for Robotic manipulation (PIVOT-R) that focuses solely on the prediction of task-relevant waypoints. Specifically, PIVOT-R consists of a Waypoint-aware World Model (WAWM) and a lightweight action prediction module. The former performs primitive action parsing and primitive-driven waypoint prediction, while the latter focuses on decoding low-level actions. Additionally, we also design an asynchronous hierarchical executor (AHE), which can use different execution frequencies for different modules of the model, thereby helping the model reduce computational redundancy and improve model execution efficiency. Our PIVOT-R outperforms state-of-the-art (SoTA) open-source models on the SeaWave benchmark, achieving an average relative improvement of 19.45% across four levels of instruction tasks. Moreover, compared to the synchronously executed PIVOT-R, the execution efficiency of PIVOT-R with AHE is increased by 28-fold, with only a 2.9% drop in performance. These results provide compelling evidence that our PIVOT-R can significantly improve both the performance and efficiency of robotic manipulation.
翻訳日:2024-10-29 21:54:49 公開日:2024-10-16
# PIVOT-R:ロボットマニピュレーションのための原始駆動型ウェイポイント認識世界モデル

PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation ( http://arxiv.org/abs/2410.10394v2 )

ライセンス: Link先を確認
Kaidong Zhang, Pengzhen Ren, Bingqian Lin, Junfan Lin, Shikui Ma, Hang Xu, Xiaodan Liang, (参考訳) 言語誘導型ロボット操作は、様々な複雑な操作タスクを達成するために抽象的なユーザー指示に従うために、具体的エージェントを必要とする難しい作業である。 従来は命令と低レベルの実行可能動作の関係を明らかにすることなく、データに自明な適合を図ったが、これらのモデルは、転送可能な知識を得る代わりに、データのサージカルパターンを記憶する傾向があるため、動的環境の変化に対して脆弱である。 そこで本研究では,ロボット操作のためのPIVOT-R(PrIrmitive-driVen waypOinT-aware world model)を提案する。 具体的には、PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。 前者はプリミティブアクション解析とプリミティブ駆動のウェイポイント予測を行い、後者は低レベルアクションのデコードに焦点を当てる。 さらに,非同期階層型実行器 (AHE) を設計し,モデルの異なるモジュールに対して異なる実行周波数を使用できるようにし,計算冗長性を低減し,モデルの実行効率を向上させる。 私たちのPIVOT-Rは、SeaWaveベンチマークで最先端(SoTA)オープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。 さらに、同期実行されたPIVOT-Rと比較して、AHEによるPIVOT-Rの実行効率は28倍に向上し、性能は2.9%しか低下しない。 これらの結果は、我々のPIVOT-Rがロボット操作の性能と効率の両方を著しく改善できることを示す。

Language-guided robotic manipulation is a challenging task that requires an embodied agent to follow abstract user instructions to accomplish various complex manipulation tasks. Previous work trivially fitting the data without revealing the relation between instruction and low-level executable actions, these models are prone to memorizing the surficial pattern of the data instead of acquiring the transferable knowledge, and thus are fragile to dynamic environment changes. To address this issue, we propose a PrIrmitive-driVen waypOinT-aware world model for Robotic manipulation (PIVOT-R) that focuses solely on the prediction of task-relevant waypoints. Specifically, PIVOT-R consists of a Waypoint-aware World Model (WAWM) and a lightweight action prediction module. The former performs primitive action parsing and primitive-driven waypoint prediction, while the latter focuses on decoding low-level actions. Additionally, we also design an asynchronous hierarchical executor (AHE), which can use different execution frequencies for different modules of the model, thereby helping the model reduce computational redundancy and improve model execution efficiency. Our PIVOT-R outperforms state-of-the-art (SoTA) open-source models on the SeaWave benchmark, achieving an average relative improvement of 19.45% across four levels of instruction tasks. Moreover, compared to the synchronously executed PIVOT-R, the execution efficiency of PIVOT-R with AHE is increased by 28-fold, with only a 2.9% drop in performance. These results provide compelling evidence that our PIVOT-R can significantly improve both the performance and efficiency of robotic manipulation.
翻訳日:2024-10-29 21:54:49 公開日:2024-10-16
# Free Video-LLM: 効率的なトレーニングフリービデオLLMのためのプロンプト誘導型視覚知覚

Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs ( http://arxiv.org/abs/2410.10441v1 )

ライセンス: Link先を確認
Kai Han, Jianyuan Guo, Yehui Tang, Wei He, Enhua Wu, Yunhe Wang, (参考訳) 視覚言語による大規模モデルは、様々なマルチモーダルタスクにおいて顕著な成功を収めてきたが、ビデオデータの複雑さと計算要求のため、ビデオ理解にそれらを適用することは依然として困難である。 トレーニングベースのビデオLLMは高いパフォーマンスを提供するが、トレーニングや推論にかなりのリソースを必要とすることが多い。 逆に、トレーニングなしのアプローチは、追加のトレーニングなしでビデオタスクに事前訓練されたイメージ-LLMsモデルを適用することで、より効率的な代替手段を提供するが、ビデオフレームから生成される多数の視覚トークンのために、推論効率のボトルネックに直面している。 本研究では,学習不要なビデオLLMの効率的な推論のための,プロンプト誘導型視覚認識フレームワーク(略して \emph{free Video-LLM} )を提案する。 提案フレームワークは時空間次元を分離し,タスク固有のプロンプトに基づいて時間フレームサンプリングと空間RoIトリミングを行う。 提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。 大規模な実験により,提案手法は比較的少ないトークンで競合する結果を得ることができ,最先端のビデオLLMと比較して精度と計算効率のトレードオフが最適であることが示された。 コードは \url{https://github.com/contrastive/FreeVideoLLM} で入手できる。

Vision-language large models have achieved remarkable success in various multi-modal tasks, yet applying them to video understanding remains challenging due to the inherent complexity and computational demands of video data. While training-based video-LLMs deliver high performance, they often require substantial resources for training and inference. Conversely, training-free approaches offer a more efficient alternative by adapting pre-trained image-LLMs models for video tasks without additional training, but they face inference efficiency bottlenecks due to the large number of visual tokens generated from video frames. In this work, we present a novel prompt-guided visual perception framework (abbreviated as \emph{Free Video-LLM}) for efficient inference of training-free video LLMs. The proposed framework decouples spatial-temporal dimension and performs temporal frame sampling and spatial RoI cropping respectively based on task-specific prompts. Our method effectively reduces the number of visual tokens while maintaining high performance across multiple video question-answering benchmarks. Extensive experiments demonstrate that our approach achieves competitive results with significantly fewer tokens, offering an optimal trade-off between accuracy and computational efficiency compared to state-of-the-art video LLMs. The code will be available at \url{https://github.com/contrastive/FreeVideoLLM}.
翻訳日:2024-10-29 21:34:52 公開日:2024-10-16
# Free Video-LLM: 効率的なトレーニングフリービデオLLMのためのプロンプト誘導型視覚知覚

Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs ( http://arxiv.org/abs/2410.10441v2 )

ライセンス: Link先を確認
Kai Han, Jianyuan Guo, Yehui Tang, Wei He, Enhua Wu, Yunhe Wang, (参考訳) 視覚言語による大規模モデルは、様々なマルチモーダルタスクにおいて顕著な成功を収めてきたが、ビデオデータの複雑さと計算要求のため、ビデオ理解にそれらを適用することは依然として困難である。 トレーニングベースのビデオLLMは高いパフォーマンスを提供するが、トレーニングや推論にかなりのリソースを必要とすることが多い。 逆に、トレーニングなしのアプローチは、追加のトレーニングなしでビデオタスクに事前訓練されたイメージ-LLMsモデルを適用することで、より効率的な代替手段を提供するが、ビデオフレームから生成される多数の視覚トークンのために、推論効率のボトルネックに直面している。 本研究では,学習不要なビデオLLMの効率的な推論のための,プロンプト誘導型視覚認識フレームワーク(Free Video-LLM)を提案する。 提案フレームワークは時空間次元を分離し,タスク固有のプロンプトに基づいて時間フレームサンプリングと空間RoIトリミングを行う。 提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。 大規模な実験により,提案手法は比較的少ないトークンで競合する結果を得ることができ,最先端のビデオLLMと比較して精度と計算効率のトレードオフが最適であることが示された。 コードはhttps://github.com/contrastive/FreeVideoLLM.comで入手できる。

Vision-language large models have achieved remarkable success in various multi-modal tasks, yet applying them to video understanding remains challenging due to the inherent complexity and computational demands of video data. While training-based video-LLMs deliver high performance, they often require substantial resources for training and inference. Conversely, training-free approaches offer a more efficient alternative by adapting pre-trained image-LLMs models for video tasks without additional training, but they face inference efficiency bottlenecks due to the large number of visual tokens generated from video frames. In this work, we present a novel prompt-guided visual perception framework (abbreviated as Free Video-LLM) for efficient inference of training-free video LLMs. The proposed framework decouples spatial-temporal dimension and performs temporal frame sampling and spatial RoI cropping respectively based on task-specific prompts. Our method effectively reduces the number of visual tokens while maintaining high performance across multiple video question-answering benchmarks. Extensive experiments demonstrate that our approach achieves competitive results with significantly fewer tokens, offering an optimal trade-off between accuracy and computational efficiency compared to state-of-the-art video LLMs. The code will be available at https://github.com/contrastive/FreeVideoLLM.
翻訳日:2024-10-29 21:34:52 公開日:2024-10-16
# ReLayout: レイアウト強化事前トレーニングによる実世界のドキュメント理解を目指して

ReLayout: Towards Real-World Document Understanding via Layout-enhanced Pre-training ( http://arxiv.org/abs/2410.10471v1 )

ライセンス: Link先を確認
Zhouqiang Jiang, Bowen Wang, Junhao Chen, Yuta Nakashima, (参考訳) 視覚的にリッチな文書理解(VrDU)に対する近年のアプローチでは、意味群は意味的に関連があるが明らかにグループ化されていないすべての単語を包含する、手動の注釈付きセマンティックグループを使用している。 OCRツールはそのようなグルーピングを自動的に識別できないため、現在のVrDUアプローチは非現実的であると論じる。 そこで本研究では,手動で注釈付きセマンティックグループを使用できない実世界のビジュアルリッチドキュメント理解(ReVrDU)という,VrDUタスクの新たな変種を導入する。 また、ReVrDUシナリオに準拠したReLayoutという新しい手法を提案する。これは、単語をアレンジすることでセマンティックグルーピングを捕捉し、潜在的に同一のセマンティックグループに属する単語の表現を密に結合する。 実験の結果,ReVrDUタスクでは既存手法の性能が劣化し,ReLayoutでは超低性能を示した。

Recent approaches for visually-rich document understanding (VrDU) uses manually annotated semantic groups, where a semantic group encompasses all semantically relevant but not obviously grouped words. As OCR tools are unable to automatically identify such grouping, we argue that current VrDU approaches are unrealistic. We thus introduce a new variant of the VrDU task, real-world visually-rich document understanding (ReVrDU), that does not allow for using manually annotated semantic groups. We also propose a new method, ReLayout, compliant with the ReVrDU scenario, which learns to capture semantic grouping through arranging words and bringing the representations of words that belong to the potential same semantic group closer together. Our experimental results demonstrate the performance of existing methods is deteriorated with the ReVrDU task, while ReLayout shows superiour performance.
翻訳日:2024-10-29 21:24:58 公開日:2024-10-16
# ReLayout: レイアウト強化事前トレーニングによる実世界のドキュメント理解を目指して

ReLayout: Towards Real-World Document Understanding via Layout-enhanced Pre-training ( http://arxiv.org/abs/2410.10471v2 )

ライセンス: Link先を確認
Zhouqiang Jiang, Bowen Wang, Junhao Chen, Yuta Nakashima, (参考訳) 視覚的にリッチな文書理解(VrDU)に対する近年のアプローチでは、意味群は意味的に関連があるが明らかにグループ化されていないすべての単語を包含する、手動の注釈付きセマンティックグループを使用している。 OCRツールはそのようなグルーピングを自動的に識別できないため、現在のVrDUアプローチは非現実的であると論じる。 そこで本研究では,手動で注釈付きセマンティックグループを使用できない実世界のビジュアルリッチドキュメント理解(ReVrDU)という,VrDUタスクの新たな変種を導入する。 また、ReVrDUシナリオに準拠したReLayoutという新しい手法を提案する。これは、単語をアレンジすることでセマンティックグルーピングを捕捉し、潜在的に同一のセマンティックグループに属する単語の表現を密に結合する。 実験の結果,ReVrDUタスクでは既存手法の性能が劣化し,ReLayoutでは超低性能を示した。

Recent approaches for visually-rich document understanding (VrDU) uses manually annotated semantic groups, where a semantic group encompasses all semantically relevant but not obviously grouped words. As OCR tools are unable to automatically identify such grouping, we argue that current VrDU approaches are unrealistic. We thus introduce a new variant of the VrDU task, real-world visually-rich document understanding (ReVrDU), that does not allow for using manually annotated semantic groups. We also propose a new method, ReLayout, compliant with the ReVrDU scenario, which learns to capture semantic grouping through arranging words and bringing the representations of words that belong to the potential same semantic group closer together. Our experimental results demonstrate the performance of existing methods is deteriorated with the ReVrDU task, while ReLayout shows superiour performance.
翻訳日:2024-10-29 21:24:58 公開日:2024-10-16
# SeedLM:LLM重量を擬似ランダム発電機の種子に圧縮する

SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators ( http://arxiv.org/abs/2410.10714v1 )

ライセンス: Link先を確認
Rasoul Shafipour, David Harrison, Maxwell Horton, Jeffrey Marker, Houman Bedayat, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi, Saman Naderiparizi, (参考訳) 大規模言語モデル(LLM)は自然言語処理を変革しているが、ランタイムコストが高いため、広範なデプロイメントにおいて大きな課題に直面している。 本稿では,擬似ランダム発生器の種をモデル重みのエンコードおよび圧縮に用いる,新しい訓練後圧縮法であるSeedLMを紹介する。 具体的には、各重みのブロックに対して、推論中に線形フィードバックシフトレジスタ(LFSR)に入力されたシードを見つけ、ランダムな行列を効率的に生成する。 この行列は、重みブロックを再構築するために圧縮係数と線形に結合される。 SeedLMはメモリアクセスを削減し、推論中にアイドル計算サイクルを活用する。 キャリブレーションデータに依存する最先端の圧縮手法とは異なり、我々の手法はデータフリーであり、多様なタスクにまたがってうまく一般化する。 圧縮が特に困難であるLlama 370Bを用いた実験では,FP16ベースラインに匹敵する性能を維持しながら,SeedLMは最先端技術よりも4ビット,3ビットでのゼロショット精度保持を著しく向上することが示された。 さらにFPGAベースのテストでは、4ビットのSeedLMがモデルサイズが70Bに増加するにつれて、FP16 Llama 2/3ベースラインの4倍のスピードアップに近づいている。

Large Language Models (LLMs) have transformed natural language processing, but face significant challenges in widespread deployment due to their high runtime cost. In this paper, we introduce SeedLM, a novel post-training compression method that uses seeds of pseudo-random generators to encode and compress model weights. Specifically, for each block of weights, we find a seed that is fed into a Linear Feedback Shift Register (LFSR) during inference to efficiently generate a random matrix. This matrix is then linearly combined with compressed coefficients to reconstruct the weight block. SeedLM reduces memory access and leverages idle compute cycles during inference, effectively speeding up memory-bound tasks by trading compute for fewer memory accesses. Unlike state-of-the-art compression methods that rely on calibration data, our approach is data-free and generalizes well across diverse tasks. Our experiments with Llama 3 70B, which is particularly challenging to compress, show that SeedLM achieves significantly better zero-shot accuracy retention at 4- and 3-bit than state-of-the-art techniques, while maintaining performance comparable to FP16 baselines. Additionally, FPGA-based tests demonstrate that 4-bit SeedLM, as model size increases to 70B, approaches a 4x speed-up over an FP16 Llama 2/3 baseline.
翻訳日:2024-10-29 20:05:09 公開日:2024-10-16
# SeedLM:LLM重量を擬似ランダム発電機の種子に圧縮する

SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators ( http://arxiv.org/abs/2410.10714v2 )

ライセンス: Link先を確認
Rasoul Shafipour, David Harrison, Maxwell Horton, Jeffrey Marker, Houman Bedayat, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi, Saman Naderiparizi, (参考訳) 大規模言語モデル(LLM)は自然言語処理を変革しているが、ランタイムコストが高いため、広範なデプロイメントにおいて大きな課題に直面している。 本稿では,擬似ランダム発生器の種をモデル重みのエンコードおよび圧縮に用いる,新しい訓練後圧縮法であるSeedLMを紹介する。 具体的には、各重みのブロックに対して、推論中に線形フィードバックシフトレジスタ(LFSR)に入力されたシードを見つけ、ランダムな行列を効率的に生成する。 この行列は、重みブロックを再構築するために圧縮係数と線形に結合される。 SeedLMはメモリアクセスを削減し、推論中にアイドル計算サイクルを活用する。 キャリブレーションデータに依存する最先端の圧縮手法とは異なり、我々の手法はデータフリーであり、多様なタスクにまたがってうまく一般化する。 圧縮が特に困難であるLlama 370Bを用いた実験では,FP16ベースラインに匹敵する性能を維持しながら,SeedLMは最先端技術よりも4ビット,3ビットでのゼロショット精度保持を著しく向上することが示された。 さらにFPGAベースのテストでは、4ビットのSeedLMがモデルサイズが70Bに増加するにつれて、FP16 Llama 2/3ベースラインの4倍のスピードアップに近づいている。

Large Language Models (LLMs) have transformed natural language processing, but face significant challenges in widespread deployment due to their high runtime cost. In this paper, we introduce SeedLM, a novel post-training compression method that uses seeds of pseudo-random generators to encode and compress model weights. Specifically, for each block of weights, we find a seed that is fed into a Linear Feedback Shift Register (LFSR) during inference to efficiently generate a random matrix. This matrix is then linearly combined with compressed coefficients to reconstruct the weight block. SeedLM reduces memory access and leverages idle compute cycles during inference, effectively speeding up memory-bound tasks by trading compute for fewer memory accesses. Unlike state-of-the-art compression methods that rely on calibration data, our approach is data-free and generalizes well across diverse tasks. Our experiments with Llama 3 70B, which is particularly challenging to compress, show that SeedLM achieves significantly better zero-shot accuracy retention at 4- and 3-bit than state-of-the-art techniques, while maintaining performance comparable to FP16 baselines. Additionally, FPGA-based tests demonstrate that 4-bit SeedLM, as model size increases to 70B, approaches a 4x speed-up over an FP16 Llama 2/3 baseline.
翻訳日:2024-10-29 20:05:09 公開日:2024-10-16
# SplitLLM:モデル配置とスループット最適化のためのLLMの協調推論

SplitLLM: Collaborative Inference of LLMs for Model Placement and Throughput Optimization ( http://arxiv.org/abs/2410.10759v1 )

ライセンス: Link先を確認
Akrit Mudvari, Yuang Jiang, Leandros Tassiulas, (参考訳) 大規模な言語モデル(LLM)は近年、破壊的な革新であり、人間のようなテキストを理解し、生成する能力のために、日々の生活において重要な役割を担っています。 その機能には自然言語の理解、情報検索と検索、翻訳、チャットボット、バーチャルアシスタントなどが含まれている。 しかし、LLMがパラメータの数で大きすぎることはよく知られている。 さらに、LLMの基盤となるアーキテクチャであるTransformersの自己アテンション機構は、入力シーケンス長に関する計算とメモリの両面で2次複雑さを持つ。 これらの理由から, LLM推論は資源集約的であり, LLM推論のスループットは特に長いシーケンスにおいて制限される。 本稿では,サーバとクライアント間の協調推論アーキテクチャを設計し,スループットの限界を緩和する。 この設計では、両サイドで利用可能なリソース、すなわち計算と通信のコストを考慮する。 サービスレベル合意(SLA)に違反することなく、サーバとクライアントデバイス間の計算を最適に割り当て、サーバのスループットを向上する動的プログラミングベースのアルゴリズムを開発した。 実験では、負荷を効率よく分散し、サーバの負荷を約1/3削減できるとともに、グレディな方法よりも19%改善できることを示した。 その結果、異なるタイプのLLM推論要求のある環境では、サーバのスループットが向上することを示した。

Large language models (LLMs) have been a disruptive innovation in recent years, and they play a crucial role in our daily lives due to their ability to understand and generate human-like text. Their capabilities include natural language understanding, information retrieval and search, translation, chatbots, virtual assistance, and many more. However, it is well known that LLMs are massive in terms of the number of parameters. Additionally, the self-attention mechanism in the underlying architecture of LLMs, Transformers, has quadratic complexity in terms of both computation and memory with respect to the input sequence length. For these reasons, LLM inference is resource-intensive, and thus, the throughput of LLM inference is limited, especially for the longer sequences. In this report, we design a collaborative inference architecture between a server and its clients to alleviate the throughput limit. In this design, we consider the available resources on both sides, i.e., the computation and communication costs. We develop a dynamic programming-based algorithm to optimally allocate computation between the server and the client device to increase the server throughput, while not violating the service level agreement (SLA). We show in the experiments that we are able to efficiently distribute the workload allowing for roughly 1/3 reduction in the server workload, while achieving 19 percent improvement over a greedy method. As a result, we are able to demonstrate that, in an environment with different types of LLM inference requests, the throughput of the server is improved.
翻訳日:2024-10-29 19:44:46 公開日:2024-10-16
# SplitLLM:モデル配置とスループット最適化のためのLLMの協調推論

SplitLLM: Collaborative Inference of LLMs for Model Placement and Throughput Optimization ( http://arxiv.org/abs/2410.10759v2 )

ライセンス: Link先を確認
Akrit Mudvari, Yuang Jiang, Leandros Tassiulas, (参考訳) 大規模な言語モデル(LLM)は近年、破壊的な革新であり、人間のようなテキストを理解し、生成する能力のために、日々の生活において重要な役割を担っています。 その機能には自然言語の理解、情報検索と検索、翻訳、チャットボット、バーチャルアシスタントなどが含まれている。 しかし、LLMがパラメータの数で大きすぎることはよく知られている。 さらに、LLMの基盤となるアーキテクチャであるTransformersの自己アテンション機構は、入力シーケンス長に関する計算とメモリの両面で2次複雑さを持つ。 これらの理由から, LLM推論は資源集約的であり, LLM推論のスループットは特に長いシーケンスにおいて制限される。 本稿では,サーバとクライアント間の協調推論アーキテクチャを設計し,スループットの限界を緩和する。 この設計では、両サイドで利用可能なリソース、すなわち計算と通信のコストを考慮する。 サービスレベル合意(SLA)に違反することなく、サーバとクライアントデバイス間の計算を最適に割り当て、サーバのスループットを向上する動的プログラミングベースのアルゴリズムを開発した。 実験では、負荷を効率よく分散し、サーバの負荷を約1/3削減できるとともに、グレディな方法よりも19%改善できることを示した。 その結果、異なるタイプのLLM推論要求のある環境では、サーバのスループットが向上することを示した。

Large language models (LLMs) have been a disruptive innovation in recent years, and they play a crucial role in our daily lives due to their ability to understand and generate human-like text. Their capabilities include natural language understanding, information retrieval and search, translation, chatbots, virtual assistance, and many more. However, it is well known that LLMs are massive in terms of the number of parameters. Additionally, the self-attention mechanism in the underlying architecture of LLMs, Transformers, has quadratic complexity in terms of both computation and memory with respect to the input sequence length. For these reasons, LLM inference is resource-intensive, and thus, the throughput of LLM inference is limited, especially for the longer sequences. In this report, we design a collaborative inference architecture between a server and its clients to alleviate the throughput limit. In this design, we consider the available resources on both sides, i.e., the computation and communication costs. We develop a dynamic programming-based algorithm to optimally allocate computation between the server and the client device to increase the server throughput, while not violating the service level agreement (SLA). We show in the experiments that we are able to efficiently distribute the workload allowing for roughly 1/3 reduction in the server workload, while achieving 19 percent improvement over a greedy method. As a result, we are able to demonstrate that, in an environment with different types of LLM inference requests, the throughput of the server is improved.
翻訳日:2024-10-29 19:44:46 公開日:2024-10-16
# LLMのミキサー・オブ・エクササイズ(動画あり)

Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free ( http://arxiv.org/abs/2410.10814v1 )

ライセンス: Link先を確認
Ziyue Li, Tianyi Zhou, (参考訳) 大きな言語モデル(LLM)は生成タスクに優れるが、デコーダのみのアーキテクチャは、さらなる表現の微調整が適用されない場合、埋め込みモデルとしての可能性を制限することが多い。 これは一般論者の主張と矛盾するのだろうか? この疑問に答えるために、Mixture-of-Experts (MoE) LLMsについて詳しく調べる。 我々の研究は、MoE LLMのエキスパートルータが、様々な種類の埋め込みタスクにおいて、微調整を必要とせず、有望な性能を持つ既製の埋め込みモデルとして機能できることを示唆している。 さらに, 広範に解析した結果, MoEルーティングウェイト (RW) は LLM の隠れ状態 (HS) と相補的であることがわかった。 HSと比較して、RWはプロンプトの選択に対してより堅牢であり、ハイレベルなセマンティクスにフォーカスしている。 そこで本研究では,RWとHSを組み合わせたMoEEを提案する。 RWとHSの類似点の重み付き和は、それらの結合における類似点よりも優れています。 MTEB(Massive Text Embedding Benchmark)の20個のデータセットを用いた6つの埋め込みタスクについて実験を行った。 以上の結果から, さらなる微調整を伴わずに, MoEE から LLM ベースの埋め込みへの大幅な改善が示された。

While large language models (LLMs) excel on generation tasks, their decoder-only architecture often limits their potential as embedding models if no further representation finetuning is applied. Does this contradict their claim of generalists? To answer the question, we take a closer look at Mixture-of-Experts (MoE) LLMs. Our study shows that the expert routers in MoE LLMs can serve as an off-the-shelf embedding model with promising performance on a diverse class of embedding-focused tasks, without requiring any finetuning. Moreover, our extensive analysis shows that the MoE routing weights (RW) is complementary to the hidden state (HS) of LLMs, a widely-used embedding. Compared to HS, we find that RW is more robust to the choice of prompts and focuses on high-level semantics. Motivated by the analysis, we propose MoEE combining RW and HS, which achieves better performance than using either separately. Our exploration of their combination and prompting strategy shed several novel insights, e.g., a weighted sum of RW and HS similarities outperforms the similarity on their concatenation. Our experiments are conducted on 6 embedding tasks with 20 datasets from the Massive Text Embedding Benchmark (MTEB). The results demonstrate the significant improvement brought by MoEE to LLM-based embedding without further finetuning.
翻訳日:2024-10-29 19:24:58 公開日:2024-10-16
# LLMのミキサー・オブ・エクササイズ(動画あり)

Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free ( http://arxiv.org/abs/2410.10814v2 )

ライセンス: Link先を確認
Ziyue Li, Tianyi Zhou, (参考訳) 大きな言語モデル(LLM)は生成タスクに優れるが、デコーダのみのアーキテクチャは、さらなる表現の微調整が適用されない場合、埋め込みモデルとしての可能性を制限することが多い。 これは一般論者の主張と矛盾するのだろうか? この疑問に答えるために、Mixture-of-Experts (MoE) LLMsについて詳しく調べる。 我々の研究は、MoE LLMのエキスパートルータが、様々な種類の埋め込みタスクにおいて、微調整を必要とせず、有望な性能を持つ既製の埋め込みモデルとして機能できることを示唆している。 さらに, 広範に解析した結果, MoEルーティングウェイト (RW) は LLM の隠れ状態 (HS) と相補的であることがわかった。 HSと比較して、RWはプロンプトの選択に対してより堅牢であり、ハイレベルなセマンティクスにフォーカスしている。 そこで本研究では,RWとHSを組み合わせたMoEEを提案する。 RWとHSの類似点の重み付き和は、それらの結合における類似点よりも優れています。 MTEB(Massive Text Embedding Benchmark)の20個のデータセットを用いた6つの埋め込みタスクについて実験を行った。 以上の結果から, さらなる微調整を伴わずに, MoEE から LLM ベースの埋め込みへの大幅な改善が示された。

While large language models (LLMs) excel on generation tasks, their decoder-only architecture often limits their potential as embedding models if no further representation finetuning is applied. Does this contradict their claim of generalists? To answer the question, we take a closer look at Mixture-of-Experts (MoE) LLMs. Our study shows that the expert routers in MoE LLMs can serve as an off-the-shelf embedding model with promising performance on a diverse class of embedding-focused tasks, without requiring any finetuning. Moreover, our extensive analysis shows that the MoE routing weights (RW) is complementary to the hidden state (HS) of LLMs, a widely-used embedding. Compared to HS, we find that RW is more robust to the choice of prompts and focuses on high-level semantics. Motivated by the analysis, we propose MoEE combining RW and HS, which achieves better performance than using either separately. Our exploration of their combination and prompting strategy shed several novel insights, e.g., a weighted sum of RW and HS similarities outperforms the similarity on their concatenation. Our experiments are conducted on 6 embedding tasks with 20 datasets from the Massive Text Embedding Benchmark (MTEB). The results demonstrate the significant improvement brought by MoEE to LLM-based embedding without further finetuning.
翻訳日:2024-10-29 19:24:58 公開日:2024-10-16